欢迎来到天天文库
浏览记录
ID:37393505
大小:8.17 MB
页数:152页
时间:2019-05-23
《搜索引擎智能化技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学博士学位论文搜索引擎智能化技术的研究与实现姓名:高凯申请学位级别:博士专业:计算机应用技术指导教师:李明禄20070601卜海交通人学博‘}:学位论文摘要分析,实现了对内容雷同网页的去重及聚类处理。第二,研究并实现了对网页的动态采集。为了能够及时采集到有关的网页信息,搜索引擎应能根据网站及其更新速度,动态地调整其采集信息的频度。本文分析了搜索引擎如何有效地完成对网页的采集,并根据网站的相关性调节该过程,使得信息采集与更新时的针对性更强。第三,把面向自然语言提问的理解与检索的研发工作又推进了一止歹。自然语言是人们表示需求最自然和最方便的工具,所以提供支
2、持自然语言的智能检索接口不仅能使人机交互更具人性化,还能促进搜索引擎的应用普及。早几年,原课题组就己实现了中文自然语言检索,但原有的句模解析算法虽已能从提问句中提取出反映用户检索需求的核心检索项,却未能处理其中包含有复杂逻辑关系的提问。在课题组原有句模解析相关算法的基础上,本文通过定义产生式规则和使用规约算法,已能对大多数常见自然语言提问句中蕴含的概念间的逻辑关系进行初步识别及有效处理,提高了系统的智能性和实用性。第四,在检索结果提供方面,用相关概念进行提问反馈,并对检索结果进行排序。通常,检索结果对用户使用的查询项依赖性较强。如果查询项选择不当,则检索结果往往
3、不太理想,但要求用户每次都能准确、全面地表达出其检索需求往往也是较为困难的。为了扩大相关信息的覆盖面,本文参照多数用户在检索类似问题时的经验,提出一种相关概念III-_海交通人学博’Ij学位论文摘要反馈方法。它既考虑到用户本身的检索需求,又考虑到大多数用户的兴趣,丰富了检索内容。另外,将检索结果按照其和用户提问的相关性排序输出,一般来说能更好地满足用户的检索需求。最后,基于用户的浏览历史,本文提出了一种预取可能相关网页的算法。有效的网页预取通常可以提高搜索引擎的处理效率和实现个性化服务。本文提出的网页预取算法充分考虑到用户在特定事件下的历史浏览行为,并使用奖励因
4、子和排序方法使得无须遍历整个树结构就可找到相关内容。试验结果表明,该算法可以较好地完成对相关页面的预取。上述一系列的研究成果,为成功地研发国家高科技研究发展计划(863)项目子课题教育资讯搜索引擎系统以及2005年度上海市信息化专项资金项目智能中文新闻搜索引擎系统奠定了基础。上述项目均分别通过了863项目的验收,以及上海市软件评测中心的验收测试和上海市信息化委员会的项目验收。关键词:搜索引擎,网页去重,网页动态采集,自然语言理解,相关概念反馈,网页预取111-J:海交通人学博。I:学位论文ABSTRACTRESEARCHANDIMPLEMENTATIONONIN
5、TELLECTUALIZEDTECHNIQUESINSEARCHENGINEABSTRACTThecontemporaryeraistheeraofinformation,andInternetcanbeseenasatreasuretroveofinformation.TheboominusingInternettriggerstheneedsfortheefficienttoolstouseandretrieveinformationfromtheWebexpedientlyandefficiently.Althoughsearchenginecanhelp
6、users,itsintelligenceneedstobeimproved,asretrievingrelevantinformationfromtheWebexpedientlyandefficientlyisnoteasy.Therefore,itisnecessarytoresearchandimplementonintellectualizedtechniquesinsearchengine.Generally,asearchengineconsistsofthefollowingfourparts:informationcollecting(incl
7、udingWebpageautomaticobtainingandtherefreshpolicy,processingonreplicativecollections,etc.),informationprocessing(includingsubjectconceptextraction,indexing,automaticsummarization,automaticclassification,etc.),informationretrieval(includingneural·languagebasedinformationretrieval,etc.
8、),andresults
此文档下载收益归作者所有