基于示例的中文web信息自动获取系统的研究与实现

基于示例的中文web信息自动获取系统的研究与实现

ID:33505791

大小:2.88 MB

页数:75页

时间:2019-02-26

基于示例的中文web信息自动获取系统的研究与实现_第1页
基于示例的中文web信息自动获取系统的研究与实现_第2页
基于示例的中文web信息自动获取系统的研究与实现_第3页
基于示例的中文web信息自动获取系统的研究与实现_第4页
基于示例的中文web信息自动获取系统的研究与实现_第5页
资源描述:

《基于示例的中文web信息自动获取系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Y8:i3319学校代码:!鲢鲤分类号:——海南大学学号:』4l鲤密级:——硕士学位论文题目:作者:指导教师:专业:研究方向:时间:基王丞倒的生交翘曲值息自麴菝壁苤统的班究皇实现..——毯壹。面~鏖耀红一镦:授.。一遵.值j复信息.丞统一.也鲤堡!壤.息.捡蠹.一三QQ五生.五目摘要现有的基于关键词的搜索引擎虽然在一定程度上满足了用户查询各种网络信息的需要。但是没有考虑用户个体间的差异,无法满足人们日益增长的个性化需求。中小型智能个性化网络信息获取系统凭借比搜索引擎更为优质的网络信息获取服务赢得了越来越多的用户的认同,已经成为个性化网络信息获取技术的一个重要研究方向。但是,中小型智能

2、个性化网络信息获取系统在用户个性特征提取、基于用户兴趣的Web信息采集、网页过滤等方面研究的滞后制约了这类系统的开发和使用。为此,本文通过基于示例的中文Web信息自动获取系统的研发对这些问题展开了研究。在本文中,我们主要对中文示例Web页面的特征抽取、待过滤Web信息源的采集、Web页面的过滤等系统开发过程中面临的技术难题进行了研究,提出一些新的算法、机制:为了减轻用户的使用负担,提出了一种适用于少量中文正例Web页面的特征抽取方法,使得用户即使只提交一至两个示例也可完成兴趣定制,增强了系统的易用性;提出了一种基于元搜索的Web页面聚焦采集机制,能快速、有针对性地采集待过滤Web信息

3、源,节约系统资源和网络资源:提出了一种可调节的过滤阈值设定方法,可按用户选取的过滤精确等级向用户推送兴趣Web页面。另外,我们改进了基于分块的HTML网页去噪解析方法,可以有效地剔除各种页面噪声、解析出Web页面的正文文本内容;我们设计的系统构架具有较好的可扩展性、可维护性、可伸缩性以及可靠性,对其它个性化Web信息获取系统的开发也具有一定的借鉴意义。最后在上述基础上,我们确立了系统的技术方案,并据此实现了一个原型系统。我们的系统采用的技术方案是;采用多层客户机/服务器体系结构,引入伪正例Web页面并结合《人民日报》切分标注语料抽取用户提交的少量示例网页的特征来建立用户兴趣模板、设置

4、过滤阈值,构建元搜索引擎获取待过滤Web信息源,使用向量空间模型过滤出兴趣网页并将它们推送给用户,根据用户对结果的反馈自适应地修改用户兴趣模板。实验结果表明,较基于关键词的机器人搜索引擎而言,我们的系统能充分考虑用户的兴趣偏好(示例),以较小的资源代价长期、主动地向用户提供更加准确的Web信息获取服务,具有一定的实用价值。关键词:中文Web页丽示例,Web信息获取,特征抽取,信息采集,文本过滤,个性化ABSTRACTAlthoughcurrentsearchenginesbasedonkeywordssatisfytheneedofusers,networkinformationre

5、trievalacertainextent,theydon’ttakethedifferenceofusersir曲aocount锄dearl’tsatisfypeople’Spersonalizedneedswell.Comparingwiththesearchengines,themiddle-scaleandsmall—scalepersonalize×tWebinformation-obtainingsystemswithsomeintelligencearewinningmoreandmoreuserswiththeirhighqualityinformation-obta

6、iningservices.AndSO,theyhavebeenanimportantresearchdirectionofthepersonalizedInteractinformation—obtainingtechnology.However,lacksofresearchesonusers’personalityfeaturesExtraction,Webcrawlingbasedonusers’interests,WebpagesfilteringandSOonarerestrictingtheirusagesanddevelopmentsnow.Thus,wegotint

7、otheresearchontheselacksthroughthedevelopmentoftheChineseWebinformation—obtainingsystembasedonWebpageexamples.Inthispaper,wemainlyresearchedthedifficultproblemsinoursystemsuch够featuresextractionofChineseWebpageexamples,crawlingofW

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。