欢迎来到天天文库
浏览记录
ID:18196912
大小:106.00 KB
页数:9页
时间:2018-09-15
《话题检测与跟踪技术的发展与研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、话题检测与跟踪技术的发展与研究骆卫华刘群{luoweihua,liuqun}@ict.ac.cn中国科学院计算技术研究所摘要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较。关键词:话题检测与跟踪,向量空间模型,语言模型DevelopmentandAnalysisofTechnologyofTopicDetectionandTrackingLuoWeihua,LiuQun{luoweihua,liuqun}@ict.ac.cnInstitu
2、teofComputingTechnology,ChineseAcademyofSciencesAbstract:Thepaperintroducestheoriginandhistoryofthedevelopmentoftechnologyoftopicdetectionandtracking,andmakesremarksonitsprospect.Italsodescribessystemicallythemethodsadoptedbythecurrentsystemsoftopicdetectionandtracking,a
3、ndmakescomparisonamongtheirperformance.Keywords:TopicDetectionandTracking,VectorSpaceModel,LanguageModel1应用背景随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息数量太大,与一个话题相关的信息往往孤立
4、地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。一般的检索工具都是基于关键词的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。话题检测与跟踪(TopicDetectionandTracking,以下简称TDT)技术就是在这种情况下应运而生的。通过话题发现与跟踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之间的相互关系,从整体上了解一个事件的全部
5、细节以及与该事件与其它事件之间的关系。目前此方面的研究已经引起了人们的普遍兴趣。TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全、金融证券、行业调研等领域都有广阔的应用前景。此外,它还可以用来跟踪某个话题的来龙去脉,进行历史性质的研究。2发展历程话题检测与跟踪是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。TDT的概念最早产生于1996年,当时美国国防高级研究计划署(DARPA)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主
6、题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立了一个针对TDT研究的预研语料库)。当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,而且能自动判断新事件的出现以及旧事件的再现。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。2002秋季召开了TDT的第五次会议(即TDT2002)。这个系列评测会议作为DARPA支持的TIDES(TranslingualInforma
7、tionDetection,ExtractionandSummarization,跨语言信息检测、抽取和总结)项目下的两个系列会议(另一个是文本检索会议TREC)之一,越来越受到人们的重视。参加该评测的机构包括著名的大学、公司和研究所,如IBMWatson研究中心、BBN公司、卡耐基-梅隆大学、马萨诸塞大学、宾州大学、马里兰大学、龙系统公司等。国内这方面的研究开展得要晚一些,1999年国立台湾大学参加了TDT话题检测任务的评测,香港中文大学参加了TDT2000的某些子任务的评测。最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪
8、和研究。TDT会议采用的语料是由会议组织者提供并由语言数据联盟(LinguisticDataConsortium,以下简称LDC)对外发布的TDT系列语料,目前已公开的训练和测试语料包括TDT预研语料(TD
此文档下载收益归作者所有