发表评论 | 点击咨询SEOQQ咨询 0 条评论 发布:程俊克 发表时间:2012-11-11 标签:
 

IR模型(搜索引擎)使用模糊集合理论(Lotfi Zadeh博士于1969年创建的模糊逻辑分支)来发现两个词之间的语义关系。IR系统并非使用同义词典或字典来找出两个词之间是否有关系,而是使用自己的海量内容数据库来推测出词之间的关系。

这个过程虽然听起来复杂,但原理很简单。搜索引擎需要依靠机器逻辑(对/错、是/非等)判断,机器逻辑相对人类有它的优势,但机器逻辑不能像人类一样思考。对人类来说很直观的事情,对计算机来说可能非常难以理解。例如橘子和香蕉都是水果,但橘子和香蕉并不都是圆的。对人来说这是很直观的事情。

机器要理解这一点以及其他与此类似的概念,语义联系是关键。网上大量的人类知识可以被收录进索引库,并且从中分析出人类已经建立起来的联系。所以机器扫描索引库中“香蕉”和“橘子”这两个词出现的地方,注意到“圆形”和“香蕉”很少同时出现,而“橘子”和“圆形”经常同时出现,机器就知道橘子是圆的,而香蕉不是圆的。

这就是模糊逻辑发挥作用的地方。只要分析词语以何种频率一起出现,在什么情况下一起出现,模糊集合理论就可以帮助计算机理解词语之间是怎样相关的。

一个在此基础上有所扩展的相关概念是潜在语义分析(LSA,Latent Semantic Analysis)。通过研究亿万网页的海量索引,搜索引擎可以“学习”哪些词之间有联系,哪些概念之间有联系。

例如,运用LSA,搜索引擎能够分辨前往ZOO(动物园)的trips(旅途)活动,经常包括viewingwildlife(观看野生生物)和animals(动物),可能是一次tour(旅行)的一部分。

现在在Google搜索一下“-zoo~trips”(波浪号是搜索指令的一种,本章后面再深入讨论),注意,返回结果中加黑体的词与上一段中的英文单词相匹配。Google将相关词显示为黑体,并且能够辨认出哪些词在它们的索引库中经常同时出现(连在一起,在同一页或比较靠近的位置)。

某些形式的LSA计算成本太高。现在的搜索引擎还不能像麻省理工学院的最新型学习计算机那样聪明地学习。例如,搜索引擎无法从它们的索引库中学到,斑马和老虎都是带条纹的动物,虽然它们能意识到“条纹”和“斑马”比“条纹”和“鸭子”更有语义关系。

潜在语义索引(LSI,Latent Semantic Indexing)将语义分析更进一步,可以分辨相关联的网页。例如搜索引擎可能注意到一个页面是关于doctor的,另一个页面是关于physician的,根据这两个页面上经常共同出现的其他词,搜索引擎认定这两个页面有一定关系。所以,搜索physician时,谈论doctor的页面也可能出现。

搜索引擎公司在这些技术上投资已经很多年了。例如,2003年4月Google收购了Applied Semantics,这是一个以其语义文字处理技术闻名的公司。这个技术现在用于Google AdSense的广告系统中,也很有可能在核心搜索算法中使用。

这些应用使我们认识到搜索引擎怎样分辨网上词汇、词组以及概念之间的联系。随着语义联系成为搜索引擎算法越来越重要的部分,可以预期,页面、网站和链接的主题将会越来越受重视。未来搜索引擎将更有能力理解概念和主题,分辨哪些内容、链接、页面与整个网站的主题不太吻合。

阅读本文的人还阅读

1.搜索引擎怎么实现消除歧义及多样化

2.

文章作者:程俊克
本文地址:http://www.818seo.com/1330.html
郑州SEO版权所有 © 转载时请以链接形式注明作者和原始出处,尊重版权,谢谢!

发表评论

*

* 绝不会泄露