基于XML的垂直搜索引擎研究

基于XML的垂直搜索引擎研究

ID:34737858

大小:1.07 MB

页数:72页

时间:2019-03-10

基于XML的垂直搜索引擎研究_第1页
基于XML的垂直搜索引擎研究_第2页
基于XML的垂直搜索引擎研究_第3页
基于XML的垂直搜索引擎研究_第4页
基于XML的垂直搜索引擎研究_第5页
资源描述:

《基于XML的垂直搜索引擎研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:学校代码:10153UDC:密级:公开硕士学位论文基于XML的垂直搜索引擎研究作者姓名:孙赫入学年份:2013年9月指导教师:赵德平教授学科专业:计算机技术校外导师:陆宜梅副教授申请学位:工程硕士所在单位:信息与控制工程学院论文提交日期:2015年11月论文答辩日期:2015年12月学位授予日期:2016年1月答辩委员会主席:王安娜答辩委员会组成:王安娜乔枫沈滢刘美菊郭彤颖论文评阅人:王明顺钟辉硕士研究生学位论文摘要I摘要当今整个世界随着计算机和网络技术快速发展,互联网已经成为人类获取信息的最快捷的方法,同时互联网信息也是人类历史上资源最多、规模最大和类型最全的,通过互联网

2、把当前各行各业的人们联系到一起,互联网信息的共享越来越受到人们的重视。人们为了更好更快更准确从互联网上获得信息也搜索引擎就应运而生了。但是现在人们发现普通搜索引擎查询到的信息太多缺乏针对性和精确性,在此基础上发展出了基于各个专业领域的垂直搜索引擎。普通的搜索引擎都是基于HTML网页格式的,HTML主要侧重于显示而对内容的处理受到限制,这样大大的降低了搜索引擎的查询准确率。而随着W3C推出的一种全新XML可扩展标记语言以来,查询准确率在一定程度有提高。XML的标记既有文本信息也有结构信息,就能更好的表明其标记所代表的含义和内容,按照此信息建立起来的搜索引擎能够准确的定位和查找目标,从

3、而能够有效的缩小搜索范围,提高查询检索的精度。本文正是在此基础上,提出基于XML文档的垂直搜索引擎的研究。本文首先对搜索引擎的发展进行介绍,主要对搜索引擎的原理进行了研究,特别是对搜索引擎中常用的主题识别技术、中文分词技术、网页排序技术和信息检索技术进行了深入研究,同时对搜索引擎的发展方向提出了作者的见解,还给出了针对特定领域的垂直搜索引擎基本原理。本文还详细分析了HTML技术和XML技术,对XML文档的结构进行详细介绍。让对基于XML的搜索引擎的实现的原理进行深入研究和分析。本文根据搜索引擎的原理和XML文档的技术特点,设计出了基于XML文档的垂直搜索引擎模型,并实现了其中的部分

4、模块。重点介绍了实现基于XML文档的垂直搜索引擎的爬虫模块、转换模块、XML解析模块、索引模块和查询模块。最后,本文针对设计出的模型的性能指标进行了介绍,同时给出了相关实验数据,建立了模型的索引,并分析了索引查询的响应时间。关键词:XML;垂直搜索引擎;索引;文档结构;网络爬虫;分词技术II摘要硕士研究生学位论文硕士研究生学位论文AbstractIIIAbstractWiththerapiddevelopmentofcomputerandnetworktechnologyintheworldtoday.Internethasbecomethemostefficientwaytoob

5、taininformation,ThroughtheInternettopeoplefromallwalksoflife,theInternetinformationsharingmoreandmorepeople'sattention.PeopleinordertobetterandfasteraccesstoinformationontheInternetisalsoasearchenginecameintobeing.Butnowitisfoundthatthegeneralsearchenginequerytotheinformationistoomuchlackoftar

6、getedandaccuracy,basedonthedevelopmentofaverticalsearchenginebasedonvariousprofessionalfields.GeneralsearchenginesarebasedontheHTMLWebformat,HTMLismainlyfocusedondisplayandthecontentoftheprocessingislimited,sothatgreatlyreducesthesearchenginequeryaccuracy.WiththelaunchofanewXMLW3Cextensiblemar

7、kuplanguage,thequeryaccuracyinacertaindegreeofimprovement.XML'stagshavebothtextinformationandstructuralinformation,soitcanbettershowthemeaningandcontentoftherepresentative.Accordingtothisinformation,thesearchenginecanbeusedtolocateandse

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。