浅谈基于web的有监督自适应话题追踪系统的设计与实现

浅谈基于web的有监督自适应话题追踪系统的设计与实现

ID:34819028

大小:6.47 MB

页数:88页

时间:2019-03-11

浅谈基于web的有监督自适应话题追踪系统的设计与实现_第1页
浅谈基于web的有监督自适应话题追踪系统的设计与实现_第2页
浅谈基于web的有监督自适应话题追踪系统的设计与实现_第3页
浅谈基于web的有监督自适应话题追踪系统的设计与实现_第4页
浅谈基于web的有监督自适应话题追踪系统的设计与实现_第5页
资源描述:

《浅谈基于web的有监督自适应话题追踪系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京工商虫学硕士研究生学位论文繁论文题目:一j!王旦!盟!亘些量旦堕匡适墅塑堕一一』l鞋4遗让皇燕理一~TITLE:—立堕幽』叵旦型堕血m韭虽4£出出』出耻EL—堕!!哇睦受堂旦坠型里型盟一一学科:堂蔓捌堂墨选盘一——专业:塑笠垫生盟垫查——一学生姓名:⋯堡垒丛——一指导教师:墓鲎!里塑!一型整蕉一(职称)日期:200S年5月黪北京工商大学硕士学位论文摘要随着互联网的出现和普及,在互联网上传播的资讯浩如烟海。面对海量的互联网媒体资讯,人们需要一种手段能够快速、准确地获取自己感兴趣的有关某一话题的相关信息。话题检测与追踪技术

2、(TDT)正是为了满足这种需要,它是一种研究如何检测新发生的话题事件并追踪话题事件后续发展动态的信息智能获取技术。本文根据北京市教委科技发展计划资助项目“主题新闻服务系统”课题展开研究,围绕TDT的发展方向,提出并实现了一个有监督自适应话题追踪系统的解决方案。本文提出的话题追踪系统的解决方案主要包括以下几个方面:’(1)信息抽取技术:为了充分利用互联网的资源,为用户提供某个话题的相关信息,本系统采用了基于模板匹配的信息抽取技术,对互联网上与某个话题相关的信息进行抽取,这样可以有效地提高信息采集的准确率。(2)追踪数据源配置

3、工具:被追踪的话题的语料往往存在于不同的数据源中,为了提高话题追踪系统的灵活性,针对不同的数据库源和文本源,本系统采用修改Xml配置文件的方式,来达到不修改程序就可完成对不同数据源追踪的目的。(3)有监督自适应话题追踪算法:现有的打分算法比较多,IBM采用的对称Okapi公式算法是目前国际上比较领先的算法,在1’DT评测中名列前茅。已有的话题追踪技术都面临难以处理话题漂移现象、训练样本较少等困难,本文在IBM的对称0lkapi公式算法基础上,通过人工调整关键字和增量学习的方式,基于话题追踪任务中的有监督自适应机制提出了一种

4、新算法,改进了话题追踪的效果。(4)话题追踪信息服务:通过充分考虑用户的需求,本文设计并实现了一个基于Web的话题追踪系统,该系统分别提供了话题管理、话题分析、话题检索、个性化定制等服务功能。另外,本文还对各个服务模块功能的实现进行了描述。本文的特色和创新之处在于:基于有监督自适应机制提出了一个话题追踪新算法,设计并实现了一个基于Web的话题追踪系统。通过实验对有监督自适应话题追踪系统与无监督自适应话题追踪系统进行性能比较,实验数据表明新算法能够有效的降低话题追踪的误报率和漏报率,提高话题追踪的性能。关键词:话题追踪;监督

5、;自适应;信息抽取基于web的有监督自适应话题追踪系统的设计与实现AbstractWiththeappearanceandpopularizationoftheInternet,muchinformationistransmittedintheInternet.Facedtothemuchinformation,peopleneedthemethodthattheyCanaccesstotheirtopicinformationofinterestfasterandmoreaccurately.Topicdetection

6、andtracking(TDT)technologyistomeetthisneed,itistheintelligentinformationaccesstechnologyinordertostudyhowtodetectneweventsandtrackthesubsequentdynamicdevelopmentsoftheeventseffectively.AccordingtothedevelopmentplanofscienceandtechnologyinBeijingEducationCommittee,

7、thereisasurfaceproject,whichisnamed‘'TopicNewsServiceSystem”.Thispaperisbasedontheresearchanddevelopmentoftheproject.ItputsforwardandrealizesthesolutionofTopicTrackingSystem.SurroundingthedevelopdirectionofthetechnologyofTopicDetectionandTracking.Thispaperpresents

8、thesolutionofthetopictrackingsystem,includingthefollowingfieldofstudy:First,informationextractiontechnology:Tomakefulluseofinternetresourcesandprovideri

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。