欢迎来到天天文库
浏览记录
ID:42182470
大小:1.51 MB
页数:73页
时间:2019-09-09
《电子商务-A-第08讲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、电子商务张文新副教授电话:13910623512Email:zhangwx@manage.ustb.edu.cn课程安排讲授(36学时,共17讲)第1讲:绪论第10讲:电子商务物流规划技术第2讲:电子商务的概念与结构第11讲:物流信息系统集成技术第3讲:电子商务战略第12讲:物流配送优化调度技术第4讲:电子商务系统设计第13讲:电子商务资金流第5讲:电子商务网站设计第14讲:电子商务支付方式与流程第6讲:电子商务交易流程第15讲:电子支付技术第7讲:电子商务商品展示技术第16讲:电子支付安全技术第8讲:电子商务搜索引擎技术第17讲:电子商务法律
2、法规第9讲:电子商务商品推荐技术考试:最后一次课第8讲电子商务搜索引擎技术内容提要8.1搜索引擎原理8.2搜索引擎关键技术8.1搜索引擎原理搜索引擎分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(FullTextSearchEngine):目录索引类搜索引擎(SearchIndex/Directory)元搜索引擎(MetaSearchEngine)。8.1搜索引擎原理全文搜索引擎(如Google和Baidu)从互联网上提取各个网站的信息(以网页文字为主)建立的数据库;对数据库存储的信息进行分类建立索引库;从索引库中检索与用户查询条件
3、匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。8.1搜索引擎原理目录索引目录索引靠分类目录找到需要的信息。目录索引中最具代表性是Yahoo雅虎,国内的搜狐、新浪搜索也都属于这一类。8.1搜索引擎原理元搜索引擎(METASearchEngine)元搜索引擎
4、在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户;在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合,如Vivisimo。9/418.1搜索引擎的原理全文搜索引擎的组成和结构www索引器检索器用户接口robot…robot文档库索引库图:搜索引擎的组成和结构8.1搜索引擎原理搜索引擎的性能指标召回率:是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度:是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。8.1
5、搜索引擎原理搜索引擎的性能指标对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。目前的搜索引擎系统都非常关心精度。影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。8.1搜索引擎原理图:全文搜索引擎系统流程8.1搜索引擎原理CachingSearcherIndexerwwwPage&SiteStatisticInvertedIndex采集预处理索引检索QuerycrawlerWebPag
6、eParseUserInterfacePageRankRepositoryAnchors&Links快照图:一个简单的搜索引擎体系结构*14/22CachingSearcherIndexerInvertedIndex预处理索引检索QueryWebPageParseUserInterfacePageRankWeb采集功能:通过超链抓取Web网页,并定期更新。需要解决的问题:获取尽可能多的页面如何检测高质量页面?如何反spam?如何高效准确地发现与剔除重复页面?如何预测各类网页的刷新率?如何获取Invisibleweb?wwwPage&SiteSt
7、atistic采集crawlerRepositoryAnchors&Links8.1搜索引擎原理全文搜索引擎的原理(1)从互联网上抓取网页:利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。8.1搜索引擎原理全文搜索引擎的原理(1)从互联网上抓取网页:目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常
8、是一些非常流行、包含很多链接的站点(如Yahoo!)。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。A1B1B2B
此文档下载收益归作者所有