欢迎来到天天文库
浏览记录
ID:24232588
大小:49.00 KB
页数:3页
时间:2018-11-13
《一种基于条件随机场的征稿通知抽取方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、一种基于条件随机场的征稿通知抽取方法摘要:研究人员为了能够追踪前沿,提高科研水平,必须时刻关注与其研究相关的会议和专题。许多会议和专题都会通过邮件的形式发布征稿通知。因此,如何自动提取邮件中征稿通知的信息显得十分重要,这将为进一步实现对征稿通知的自动管理奠定基础,方便研究人员写稿、投稿的进程安排。本文利用条件随机场模型提取征稿通知的关键信息,如会议名称、会议主题、会议日期、地点和截稿日期等。本文组合多种特征,包括通用的文本串特征、领域词典和样式特征等。实验表明本文所提出的方法具有较高的准确率。关键词:征稿通知;信息抽取;条件随机场1.引言科学研究人员在进行科学
2、研究的时候,经常需要关注学术会议、工作组等方面的信息,从而获悉何时何地发表他们自己的研究成果。许多会议和专题都会通过邮件的形式发布征稿通知(CallForPapers,简称CFP)。征稿通知一般包括论文、、短文、demo、相关主题、程序委员会成员、联系地址和会议X站等信息。研究人员通过这些信息可以找到在截稿日期之前适合投稿的会议。为了能够有效管理这些征稿信息内容,需要自动提取征稿通知中的关键信息,使得这些信息可以通过结构化的形式进行访问。信息提取领域已经有许多研究关于如何从文本中提取事实,本文将文本中的每个词汇标注为一个实体的开始(beginningofane
3、ntity)、中间(insideanentity)或者不属于一个实体(notpartofanyentity)三种类别。本文用B-Entity表示一个实体的开始,用I-Entity表示在一个实体中间,用O表示不属于任何实体。比如,一个会议名称的第一个词汇标注为B-TI,其所有后续词汇标注为I-TI。因此信息抽取问题可以看作为词汇分类问题,并且满足如下约束:I-Entity只能紧跟B-Entity或I-Entity。每个词汇表示为一系列二元特征用于描述词汇本身、上下文以及空间属性。本文采用的特征见表1。本文使用条件随机场从训练样本中学习标注函数用于标注新文本。3.
4、2词汇特征词汇特征描述单个词汇或它们周围词汇的特性。本文使用通用的(领域独立的)和领域依赖的两种类型的词汇特征。对于每个词汇,采用下列信息提取词汇特征:(1)每个词汇分配一个或多个通用词汇类别,如大写字母开头词汇、全部大写字母词汇、大写字母词汇、混合大写字母词汇;(2)每个词汇通过将所有字母转化为小写字母后,其自身和周边词汇也是特征;(3)通过通用词典识别月份名称和星期中的天数;(4)通过会议名称词典识别经常出现在会议名称中的词汇,比如Conference,eeting,Congress,Track,…ATTRAnnual,Interdisciplinary,
5、Special,Joint,European,Interational,…DLDeadline,Reminder,Submission,DueTHst,nd,rd,thFORfor除了自身词汇作为特征外,我们增加了窗口为2的特征表示词汇上下文。比如,对于序列“CallforPapers9thEUROPEANE-1,ALLET:Amachinelearningforlanguagetoolkit.mallet.cs.umass.edu/,2011.
此文档下载收益归作者所有