电子商务-A-第08讲

电子商务-A-第08讲

ID:42182470

大小:1.51 MB

页数:73页

时间:2019-09-09

电子商务-A-第08讲_第1页
电子商务-A-第08讲_第2页
电子商务-A-第08讲_第3页
电子商务-A-第08讲_第4页
电子商务-A-第08讲_第5页
资源描述:

《电子商务-A-第08讲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、电子商务张文新副教授电话:13910623512Email:zhangwx@manage.ustb.edu.cn课程安排讲授(36学时,共17讲)第1讲:绪论第10讲:电子商务物流规划技术第2讲:电子商务的概念与结构第11讲:物流信息系统集成技术第3讲:电子商务战略第12讲:物流配送优化调度技术第4讲:电子商务系统设计第13讲:电子商务资金流第5讲:电子商务网站设计第14讲:电子商务支付方式与流程第6讲:电子商务交易流程第15讲:电子支付技术第7讲:电子商务商品展示技术第16讲:电子支付安全技术第8讲:电子商务搜索引擎技术第17讲:电子商务法律

2、法规第9讲:电子商务商品推荐技术考试:最后一次课第8讲电子商务搜索引擎技术内容提要8.1搜索引擎原理8.2搜索引擎关键技术8.1搜索引擎原理搜索引擎分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(FullTextSearchEngine):目录索引类搜索引擎(SearchIndex/Directory)元搜索引擎(MetaSearchEngine)。8.1搜索引擎原理全文搜索引擎(如Google和Baidu)从互联网上提取各个网站的信息(以网页文字为主)建立的数据库;对数据库存储的信息进行分类建立索引库;从索引库中检索与用户查询条件

3、匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。8.1搜索引擎原理目录索引目录索引靠分类目录找到需要的信息。目录索引中最具代表性是Yahoo雅虎,国内的搜狐、新浪搜索也都属于这一类。8.1搜索引擎原理元搜索引擎(METASearchEngine)元搜索引擎

4、在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户;在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合,如Vivisimo。9/418.1搜索引擎的原理全文搜索引擎的组成和结构www索引器检索器用户接口robot…robot文档库索引库图:搜索引擎的组成和结构8.1搜索引擎原理搜索引擎的性能指标召回率:是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度:是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。8.1

5、搜索引擎原理搜索引擎的性能指标对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。目前的搜索引擎系统都非常关心精度。影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。8.1搜索引擎原理图:全文搜索引擎系统流程8.1搜索引擎原理CachingSearcherIndexerwwwPage&SiteStatisticInvertedIndex采集预处理索引检索QuerycrawlerWebPag

6、eParseUserInterfacePageRankRepositoryAnchors&Links快照图:一个简单的搜索引擎体系结构*14/22CachingSearcherIndexerInvertedIndex预处理索引检索QueryWebPageParseUserInterfacePageRankWeb采集功能:通过超链抓取Web网页,并定期更新。需要解决的问题:获取尽可能多的页面如何检测高质量页面?如何反spam?如何高效准确地发现与剔除重复页面?如何预测各类网页的刷新率?如何获取Invisibleweb?wwwPage&SiteSt

7、atistic采集crawlerRepositoryAnchors&Links8.1搜索引擎原理全文搜索引擎的原理(1)从互联网上抓取网页:利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。8.1搜索引擎原理全文搜索引擎的原理(1)从互联网上抓取网页:目前有两种搜集信息的策略:从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常

8、是一些非常流行、包含很多链接的站点(如Yahoo!)。将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。A1B1B2B

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。