高效中文搜索引擎的关键技术研发

高效中文搜索引擎的关键技术研发

ID:36563115

大小:5.09 MB

页数:109页

时间:2019-05-12

高效中文搜索引擎的关键技术研发_第1页
高效中文搜索引擎的关键技术研发_第2页
高效中文搜索引擎的关键技术研发_第3页
高效中文搜索引擎的关键技术研发_第4页
高效中文搜索引擎的关键技术研发_第5页
资源描述:

《高效中文搜索引擎的关键技术研发》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、上海交通大学博士学位论文高效中文搜索引擎的关键技术研发姓名:宋聚平申请学位级别:博士专业:模式识别与智能系统指导教师:王永成20021101对数据结构的改进在第四章有具体的论述。六、对搜索引擎按照其搜索主题分类:本文采用了自动分类和自动抽取主题等技术把近千个搜索引擎按照其搜索主题分为25个大类,为以后开发高效智能的元搜索引擎打下坚实的基础,该元搜索引擎能够针对用户提交的查询项自动选择类别,而且在应用过程中,通过发掘用户日志或者反馈信息自动选择搜索引擎的类别并调整搜索引擎在所属类别中的排列顺序。七、利用潜在语义模型(LatentSemanticModel)发掘概念间隐含的联

2、系,使概念辞典并不是仅仅限定在同义概念的层次上,而是从语义的角度解决某些问题。基于这种模型的概念辞典具有自学习功能,可以逐渐调整概念间的联系。另外,本论文包括其它的工作:多个概念的快速查询,以及在特定条件下突破了nlogn下限的排序算法等。基于上述理论,作者实现了一个新闻搜索引擎。该搜索引擎的特点是支持自然语言查询,并具备概念的扩充,以及自学习、自适应等功能,而且新闻覆盖面积大,更新速度快。按照评测搜索引擎的常用标准,即“多、快、好、省”四个方面,专门的评测小组对本新闻搜索引擎进行测试,评测结果认为与其它著名搜索引擎相比,在查询中文新闻方面,本系统的查全率、查准率都有明显

3、优势,而且本系统所支持的自然语言查询、概念扩充、自学习等功能进一步体现了其智能性。虽然本文研究已取得一定成绩,一些领先技术已在开发的系统中得到了应用,但由于互联网信息的搜集处理是一项非常困难的工作,本课题还需进一步深入研究,尤其是语义和语境的分析、知识库的构建以及概念辞典的完善等方面尤其需要加强,另外,开发高效的元搜索引擎也是一个重要的研究方向。鉴于当前对信息内容的处理缺乏非常有效的方法,知识库的建设以及仿人的思想和方法值得高度重视。关键词:定题搜索,ReverseLink.Based算法,自学习,网页相似度,PageRank算法,潜在语义模型,全文索引,概念辞典,知网I

4、IRESEARCHONKEYTECHNIQUESINEFFICIENTCHINESESEARCHENGINEABSTRACTMinistryofInformationIndustryreportedthatInformationIndustryhasbecomingthefirstbackboneindustryofChina.Soorganizingandprocessinginformationisakeyfactoronthedevelopmentofourcountry.WiththeenormousgrowthofWebpages.theamountofinfo

5、rmationisenlargedexponentially.Howtomakeuseofthesenetworkinformationresourceisbecomingameaningfulresearchtopic.SearchengineiSanefficientmethodtoretrieveWebpages.Butnow,thesearchenginecannotsarisfytheusers.Becauseoflargeamountofinformation.manykindsoffileformat,andupdatedquickly,suchfactor

6、smaketheresearchonsearchenginemoredimcult。Furthermore,becausetheresearchonsyntaxandsemanticsonlylocatedatinitialstage,therefore,developinghigllefficientandintelligentsearchenginebecomeamajorchallenge.Fromdifferentaspectsoftheoryandmethod,thispapersummarizesandreportstheauthor’Scognitions,

7、contributionsandachievementsacquiredduringtheprocessofresearchingondevelopingallefficientandintelligentsearchengine.Experimentsshowthatsomeofourachievementsareoutstanding.Ahighefficientelectronicthesaurustoorganizetheconceptitemsisproposed.CombiningtheadvantagesofHA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。