欢迎来到天天文库
浏览记录
ID:45782960
大小:382.26 KB
页数:54页
时间:2019-11-17
《基于XML的搜索引擎研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、西安科技大学硕士学位论文基于XML的搜索引擎研究姓名:姚建绩申请学位级别:硕士专业:计算机应用技术指导教师:李占利20060418subjeCt:ResearChonXML-—basedsearchEngineSpecia1ty:ComputerApp1icationTechn0logyName:Ya0Jianji(s■1gnature)Instructor:LiZhan1(S•1gnaturABSTRACTToday,Imkindsineisntemethasa1readybecomeaniostre
2、source,most「and1argestsca1esineethedownofhumaaveryimpor,JtinIormae•Themoscarchcne.Now,rtantisve.rmat1otgne1*fntntemettood1ithex1cbasconHTMLwhof.fJ、cu1t.Parnretrievinatu,srobact1y…anguageXMLgrowups1owenformationbankthathason.Searchengion.hendescribed,st0u
3、ndant,searcheng•1neCanf•1ndands0enhancetredandexpreinformationhessedwithXMLinrelyontherelathefuture.ThetionshipoftagtagofXMLisabandcontent,enginebasedonXML.F•rstwe•ntr0duceXML•ncontrastwithIITMLwh■chte11USthe;re;asonwhysearchcnginccango0ddca1w•1thXML.wca
4、1s0intr0ducesomctechn01ogyaboutsercheng•1ncandmakesomeimPr•0Ve:mentonChinesewordsegmentat•10n•Sec0nd,wedesgntheframeW0rk0fthesearchenSnebasedonXMLwhichc0IYl'Prisesr0botm0du1e9sw•1tchm0du1e,Parse—indeXmodu1eandquerymodu1e・Inth•1sart•1C1e,wedescr•1bestruct
5、ure0feverymodu1e•1ndeta•11■F•na11y,we•nIr0duceh0wLoimp1emenIparse-•—1ndexmodu1e・TheParse—•1ndexm0du1ec0nta•1nsParserand•1ndexer,wedes•1ignindexforstructureandcontent0XMLdocumentandspec•1fythemeth0d0f•1ndex•Keywords:SearchEngineXMLIITMLWordSegmentationThe
6、sis:App1icationRescarch要料技大学学位论文独创性说明本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及其収得研究成果。尽我所知,除了文屮加以标注和致谢的地方外,论文屮不包含其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在思a鞭:抽3.6.7〃学位论文知识产权声明书本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西安
7、科技大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采川影印、缩印或扫描刻导指悶仙克年幼j舖扩1绪论1.1论文的研究背景二十世纪九十年代以来,信息产业进入了一个历史上前所未有的飞速发展时期,web网(Wor1dWideWeb万维网)已经发展成为一个全球的、巨大的、分布的和共享的信息空间,Intemet为用户提供了方便快捷的资源共亨利信息交互的手段和平台。利用互联网,人们可以快速、方便地接触到各种信
8、息,但是随之而來的问题是如何能在海量信息中找到有效的资源。网络时代的信息量每8个月就翻一番,据1999年2月的统计数据表明I1J,Web上存储了大约8亿个网页,信息容量高达15TB,而2004年Goog1e统计网上至少有40亿网页oJ,要在浩如烟海的网络世界寻找需要的信息,作为现代信息获取技术的主要应用——搜索引擎是必不可少的。搜索引擎技术来源于信息检索领域(InformationRetrieval)[31,是目前应用晟广泛的信息技术,搜索
此文档下载收益归作者所有