一种基于条件随机场的征稿通知抽取方法

一种基于条件随机场的征稿通知抽取方法

ID:24232588

大小:49.00 KB

页数:3页

时间:2018-11-13

一种基于条件随机场的征稿通知抽取方法_第1页
一种基于条件随机场的征稿通知抽取方法_第2页
一种基于条件随机场的征稿通知抽取方法_第3页
资源描述:

《一种基于条件随机场的征稿通知抽取方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一种基于条件随机场的征稿通知抽取方法摘要:研究人员为了能够追踪前沿,提高科研水平,必须时刻关注与其研究相关的会议和专题。许多会议和专题都会通过邮件的形式发布征稿通知。因此,如何自动提取邮件中征稿通知的信息显得十分重要,这将为进一步实现对征稿通知的自动管理奠定基础,方便研究人员写稿、投稿的进程安排。本文利用条件随机场模型提取征稿通知的关键信息,如会议名称、会议主题、会议日期、地点和截稿日期等。本文组合多种特征,包括通用的文本串特征、领域词典和样式特征等。实验表明本文所提出的方法具有较高的准确率。关键词:征稿通知;信息抽取;条件随机场1.引言科学研究人员在进行科学

2、研究的时候,经常需要关注学术会议、工作组等方面的信息,从而获悉何时何地发表他们自己的研究成果。许多会议和专题都会通过邮件的形式发布征稿通知(CallForPapers,简称CFP)。征稿通知一般包括论文、、短文、demo、相关主题、程序委员会成员、联系地址和会议X站等信息。研究人员通过这些信息可以找到在截稿日期之前适合投稿的会议。为了能够有效管理这些征稿信息内容,需要自动提取征稿通知中的关键信息,使得这些信息可以通过结构化的形式进行访问。信息提取领域已经有许多研究关于如何从文本中提取事实,本文将文本中的每个词汇标注为一个实体的开始(beginningofane

3、ntity)、中间(insideanentity)或者不属于一个实体(notpartofanyentity)三种类别。本文用B-Entity表示一个实体的开始,用I-Entity表示在一个实体中间,用O表示不属于任何实体。比如,一个会议名称的第一个词汇标注为B-TI,其所有后续词汇标注为I-TI。因此信息抽取问题可以看作为词汇分类问题,并且满足如下约束:I-Entity只能紧跟B-Entity或I-Entity。每个词汇表示为一系列二元特征用于描述词汇本身、上下文以及空间属性。本文采用的特征见表1。本文使用条件随机场从训练样本中学习标注函数用于标注新文本。3.

4、2词汇特征词汇特征描述单个词汇或它们周围词汇的特性。本文使用通用的(领域独立的)和领域依赖的两种类型的词汇特征。对于每个词汇,采用下列信息提取词汇特征:(1)每个词汇分配一个或多个通用词汇类别,如大写字母开头词汇、全部大写字母词汇、大写字母词汇、混合大写字母词汇;(2)每个词汇通过将所有字母转化为小写字母后,其自身和周边词汇也是特征;(3)通过通用词典识别月份名称和星期中的天数;(4)通过会议名称词典识别经常出现在会议名称中的词汇,比如Conference,eeting,Congress,Track,…ATTRAnnual,Interdisciplinary,

5、Special,Joint,European,Interational,…DLDeadline,Reminder,Submission,DueTHst,nd,rd,thFORfor除了自身词汇作为特征外,我们增加了窗口为2的特征表示词汇上下文。比如,对于序列“CallforPapers9thEUROPEANE-1,ALLET:Amachinelearningforlanguagetoolkit.mallet.cs.umass.edu/,2011.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。