多维文档表示模型下的新闻事件发现、追踪

多维文档表示模型下的新闻事件发现、追踪

ID:8464082

大小:1.01 MB

页数:24页

时间:2018-03-28

多维文档表示模型下的新闻事件发现、追踪_第1页
多维文档表示模型下的新闻事件发现、追踪_第2页
多维文档表示模型下的新闻事件发现、追踪_第3页
多维文档表示模型下的新闻事件发现、追踪_第4页
多维文档表示模型下的新闻事件发现、追踪_第5页
资源描述:

《多维文档表示模型下的新闻事件发现、追踪》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、多维文档表示模型下的新闻事件发现、追踪--2009年工作进展报告邸楠北京大学网络与分布式系统实验室,北京大学信息科学技术学院•网络与信息系统研究所:PKU_CS_NCIS_TR多维文档表示模型下的新闻事件发现、追踪邸楠(北京大学信息科学与技术学院,)摘要:事件发现是将来自一个或多个信息源的新闻文档划分到已知的事件中,或者标注发现新的事件的过程。随着近年来网络新闻媒体的兴起,新闻网页的数量激增,而如何有效的发现、分析这些网页内容中描述的新闻事件已经成为近年来网络信息挖掘研究领域的一个热点。经过对前人工作的调研分析,我们认为仅仅利用新闻文本内容,以及使用单一的bagof

2、words模型并没有充分展示事件内容重点。以此为出发点,本文提出了一种新的文档表示模型,它利用文档的时间、包含的实体和文档中文本片段等多种类型的与其描述事件相关的特征因素。在此基础上本文还采用了基于SVM的方法来帮助整合多个维度的特征来计算不同文档间的相似度。实验结果表明本文提出的方法较之传统单一使用文档向量的方法有提高。最后本文对现有的事件发现工作做了总结,并对今后工作做出了计划。1.本文讨论中的重要概念和相关定义事件是一个可观察、非平凡的现象,它具有的要素包括时间、地点、发生的事情等,引起人们关注的事件可以是社会性的,也可以是自然性的等。而这些事件会引起大众媒体

3、的关注,随着Web的爆炸式发展,网络媒体对新闻事件的报道已成为现在新闻报道的重要部分:这可以是网络新闻门户、个人blog等。针对这些网络媒体发表的与新闻事件相关文档进行的事件发现(eventdetection)或事件追踪(eventtracking)已经成为近年来网络挖掘方向(webmining)中热门的研究点。这里我们首先给出几个与事件相关的重要概念:首先是事件(event):我们定义事件是发生在一个特定时间、地点的事情,而且网络媒体中存在新闻文档对该事件进行报道。在后面的研究中我们将把事件表示成一组描述该事件的新闻文档的集合。第二是新闻文档(newsstory)

4、:一篇新闻文档是事件发现工作中的基本单元,其中包括事件的若干信息,这可以是对一个新事件的报道,也可以是对现有事件进展的描述等。每篇新闻文档除了文本新闻外,还至少包含一个时间标签以表明该文档的发表时间。这里我们假设每篇新闻文档属于且只属于一个事件。最后是事件发现:根据前面的两个定义和假设,事件发现就是将新闻文档集合做划分成若干不相交的子集,使得每个子集中的文档都是描述同一事件的。另一类我们要讨论的重要概念是命名实体,首先对命名实体的定义是用来标识一个客观存在的事物的词或短语,比如人名、地名、机构名等。其次上面我们提到的新闻文档在其中对特定新闻事件的报道大都是围绕特定命

5、名实体为核心展开的,具体来说:这些命名实体是参与到所报道的新闻事件,而叙述的方式一般为描述这些命名实体的特征、属性;或描述这些命名实体的行为动作;或几个参与到该事件的命名实体之间的关系。因此本文后面对事件发现的工作很重要的一部分是以新闻文档中出现的命名实体为主要研究对象展开的。2.事件发现研究工作现状与问题事件发现最开始是NIST主持的TDT(TopicDetectionandTracking)评测工作,9北京大学信息科学技术学院•网络与信息系统研究所:PKU_CS_NCIS_TR这包括新事件发现(neweventdetection),主题发现(topicdetec

6、tion)和回顾式事件发现(retrospectiveeventdetection)等几个子任务[7,10,11]。其主要任务目标是分析来自不同信息源的新闻文档,将描述同一事件(主题)的文档合并在一起,下文中我们的工作和“新事件发现”任务更为相关。在早期的相关工作中,较有影响力的是[7],其中所处理的数据为TDT-2,其中新闻文档的来源是传统的报纸媒体。该工作分别提出了两种不同的事件发现方法:一种是是用增量TFIDF模型来刻画新闻文档,事件发现则转化为一个增量聚类的问题[10,11,12],即每篇文档按照其发表时间顺序形成一个文档流,并依照这个顺序以cosine为框

7、架来计算每个新闻文档与现有的事件集合相似度,并以此来判断每个文档所属的事件类别;第二种方法则是采用基于GAC(GroupAverageClustering)的层次聚类方法,在整个的新闻文档集合上构建一棵层次聚类树,最终通过时序分析来得到每个具体事件所对应的新闻文档集合。随着研究的进展,近年来事件发现的研究已不仅仅局限于对TDT测试集这样的小规模文本集的处理,越来越多的工作是面向来自Web中新闻网站的海量新闻网页的分析与挖掘。这其中很多工作是以[7]为基本框架进行了改进与增强:[1]中对来自不同新闻源的文档分别TF和DF,并以此证实不同新闻源具有不同的语言特征,而

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。