话题检测与跟踪技术的发展与研究

话题检测与跟踪技术的发展与研究

ID:8268599

大小:341.22 KB

页数:7页

时间:2018-03-15

话题检测与跟踪技术的发展与研究_第1页
话题检测与跟踪技术的发展与研究_第2页
话题检测与跟踪技术的发展与研究_第3页
话题检测与跟踪技术的发展与研究_第4页
话题检测与跟踪技术的发展与研究_第5页
资源描述:

《话题检测与跟踪技术的发展与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、话题检测与跟踪技术的发展与研究骆卫华刘群程学旗中国科学院计算技术研究所软件研究室比京100080{luoweihua,liuqun,cxq}@ict.ac.cn摘要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法.并对其效果进行了比较。姜妞词,话RrtO测与跟踪,向量空间模型,语言模型DevelopmentandAnalysisofTechnologyofTopicDetectionandTrackingLuoWeihuaLiuQunChengXueqiSoftwareDivision,Instituteo

2、fComputingTechnology,ChineseAcademyofSciences,Beijing100080{luoweihua,liuqun,cxq}@ict.ac.cnAbstract:Thepaperintroducestheoriginandhistoryofthedevelopmentoftechnologyoftopicdetectionandtracking,andmakesremarksonitsprospectItalsodescribessystemicallythemethodsadoptedbythecurrentsystemsoftopicdet

3、ectionandtracking,andmakescomparisonamongtheirperformance.Keywords:TopicDetectionandTracking,VectorSpaceModel,LanguageModel1应用背景随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的栓桔。在目前信息爆炸的情况下,如何快捷准确地获取感兴趣的信息成为人们关注的主要问题。目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的

4、信息,人们对某些事件难以做到全面的把握。而基于关键词的检索工具返回的信息冗余度过高,很多不相关的信息仅仅因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。话题检测与跟踪(TopicDetectionandTracking,以下简称TDT)技术就是在这种情况下应运而生的,它可以帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及与该事件与其它事件之间的关系。·56)。TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全、金融证券、行业调研等领域都有广阔的应用前景。此外,它还可以用来

5、跟踪某个话题的来龙去脉,进行历史性质的研究。2发展历程TDT的概念最早产生于19%年,当时美国国防高级研究计划署(DARPA)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立一个针对TDT研究的预研语料库)。当时的研究内容包括寻找内在主题一致的片断,而且能自动判断新事件的出现以及旧事件的再现。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。这个系列评测会议作为DARPA支持的TIDES项目

6、下的两个系列会议之一,越来越受到人们的重视。参加该评测的机构包括著名的大学、公司和研究所,如IBMWatson研究中心、BBN公司、卡耐基一梅隆大学、马萨诸塞大学、宾州大学等。国内这方面的研究开展得要晚一些,1999年国立台湾大学参加了TDT话题检测任务的评测,香港中文大学参加了TDT2000某些子任务的评测。最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪和研究。总的来看,TDT系列评测会议呈现两大趋势:一是努力提高信息来源的广泛性,其来源包括互联网上的文本数据,也包括来自广播、电视的语音数据;二是强调多语言的特性。从1999年开始,TDT会议先后引入了汉语和阿拉伯语的

7、测试集。TDT会议采用的语料是由语言数据联盟(LinguisticDataConsortium,简称LDC)提供的TDT系列语料,目前已公开的训练和测试语料包括TDTPilotCorpus.TDT2和TDT3,这些语料都人工标注了若干话题作为标准答案。TDT2和TIM收录的报道总量多达11万6千篇,从而很大程度上降低了数据稀疏问题的影响,同时能较好地验证算法的有效性.可以看到,话题检测与跟踪和信息抽取研究一样,其建立与发展是以评测驱动的方式进行的。这种评测研究的方法具

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。