欢迎来到天天文库
浏览记录
ID:1393286
大小:879.00 KB
页数:58页
时间:2017-11-11
《基于lucene与heritrix的搜索引擎构建毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Lucene与Heritrix的搜索引擎构建毕业论文摘要IAbstractII第1章绪论11.1课题的背景及意义11.2垂直搜索引擎现存的问题11.2.1垂直搜索引擎的产生11.2.2存在的问题21.3国内外垂直搜索引擎的发展31.4垂直搜索引擎的发展前景41.5课题的主要研究内容6第2章搜索引擎实现原理72.1通用搜索引擎的工作流程72.2网页信息采集技术和软件82.2.1网页信息采集软件的工作方式92.2.2网页采集软件的组成模块102.3索引器122.3.1实现原理122.3.2索引数据
2、组织132.3.3索引文件导出过程142.4网页存储器与分析索引器1442.5查询器和用户接口的设计152.5.1查询器152.5.2用户接口162.6搜索引擎的性能评价指标162.7小结18第3章垂直搜索引擎的关键技术193.1页面分析技术193.2超链接分析算法203.2.1PageRank算法203.2.2HITS算法223.3网页信息的结构化抽取233.3.1网页信息的结构化抽取方式243.3.2结构化信息抽取系统的结构243.3.3中文网页结构化信息抽取的难点253.4暗藏网页的信息抽取263.5
3、小结27第4章面向音乐领域垂直搜索引擎的总体设计284.1基本功能需求284.2音乐产品信息搜索引擎系统的体系结构294.3系统开发环境304.4垂直搜索引擎的主要数据库设计304.5系统功能特点31第5章4面向音乐领域的垂直搜索引擎的具体实现335.1音乐信息网页自动搜索算法的具体实现335.1.1元搜索算法335.1.2自动搜索过程的实现355.1.3网页爬行的控制模块实现375.1.4HTML标准化与页面解析385.1.5网页爬行的控制模块的性能测试395.2页面分析与音乐产品信息的自动抽取415.3L
4、ucene倒排文件索引结构445.4用户查询功能的实现455.4.1网页形式的音乐产品信息查询与返回465.4.2站内数据库中的音乐产品信息查询与返回485.5小结49结论50致谢52参考文献5344绪论第1章绪论1.1课题的背景及意义随着网络与通信技术的迅速发展,Web信息爆炸性的增长,互联网已经成为一个巨大的海量信息空间。如何迅速、准确、方便的从如此庞大的信息库获取自己需要的信息,是互联网用户面临的一个重要问题。搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家的普遍认
5、可,成为互联网中最有价值的领域。大家熟知的搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。CNNIC第十四次互联网调查表示,搜索以71.9%的绝对优势成为用户从互联网上获取信息的主要方式[1],是互联网上使用程序仅次于电子邮箱的服务。互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速找到符合的信息,
6、现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。因此,如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。1.2垂直搜索引擎现存的问题1.2.1垂直搜索引擎的产生21绪论所谓通用搜索引擎,并不能够囊括所有的网页,据google的人说,也就猜测覆盖了40%不到的网页,也就是说,更多的网页是没有被通用搜索引擎收录的,也就谈不上被搜到了。那些没有机会收录的网页,有些是需要身份验证等之后才可以看到,有些是根本未被通用搜索引擎的蜘蛛爬到。这些信息却往往是宝贵的,更有价
7、值的。每一个行业都是复杂的,从目前计算机技术来讲,还是遵循冯.诺依曼的体系,也即是说还是依靠图灵未实现的人工智能之下的计算机逻辑来处理信息,在搜索收录的分析过程中,如果不加上行业特点和特性进行分析,很难说会更准确分析到网页的重要性和分析的准确。这个也是垂直的意义所在[2]。当然,这里面也需要注意到,并非你垂直了,你的搜索收录和搜索结果就一定比通用搜索更准确[3]。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位
8、,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是21西安工业大学毕业设计(论文)以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方
此文档下载收益归作者所有