鉴于中文信息抽取(ie)中事件模板建立的研究

鉴于中文信息抽取(ie)中事件模板建立的研究

ID:34791042

大小:1.80 MB

页数:68页

时间:2019-03-10

鉴于中文信息抽取(ie)中事件模板建立的研究_第1页
鉴于中文信息抽取(ie)中事件模板建立的研究_第2页
鉴于中文信息抽取(ie)中事件模板建立的研究_第3页
鉴于中文信息抽取(ie)中事件模板建立的研究_第4页
鉴于中文信息抽取(ie)中事件模板建立的研究_第5页
资源描述:

《鉴于中文信息抽取(ie)中事件模板建立的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京邮电大学硕士学位论文中文信息抽取(IE)中事件模板建立的研究姓名:相卫华申请学位级别:硕士专业:计算机应用技术指导教师:上官右黎20050224中文信息抽取(1E)中事件模板建立的研究摘要信息抽取(IEInformationExtraction)的研究开始于20世纪60年代,是从非结构化的文档中抽取出特定的事实信息。信息抽取(IE)是获取信息的主要手段,是文本信息处理的~个重要方面。按照IVlUC一7定义,信息抽取任务主要包括:NE(命名实体)识别、ER(事件关系)识别、TS(事件)提取、CO(代词、名词共指)识别、TM(相同事件的合并)。本文的研究属于第三个阶段

2、:事件模板的提取与建立阶段。本文以西班牙马德里事件作为实验对象,研究突发事件领域的文本信息特点,探索突发事件模板的自动获取。通过机器学习方法,建立了相关事件模板,用于表述信息各个侧面的特征。并运用匹配和抽取算法,对测试语料进行模式匹配与信息抽取。作者主要完成了以下研究工作:一、以马德里311爆炸事件的500篇新闻语料作为训练语料,通过向量空间模型表示,以知网(HowNet)为知识库,通过句子聚类进行了事件的侧面抽取,并通过特征模糊向量进行侧面表示。二、通过有限状态自动机(FAFiniteAutomata)与概率方法的结合,进行训练语料中特征句型模式的抽取,抽取的结果通

3、过知网(HowNet)中的类别转换,生成泛型特征句型模式库。三、以马德里31l爆炸事件的314篇新闻语料作为测试语料,进行侧面匹配、句型模式对应、槽值填充工作。测试语料以向量空间模型表示后与各侧面的特征模糊向量相乘后比较得到该语料所属侧面。然后按照所提供的有限状态自动机(FA)进行候选句型抽取,对于未确定的候选句型利用特征句型模式库通过最大概率法进行筛选确定,最后对特征句型对应的槽提取槽值填充。实验数据分析可以看出,事件侧面的抽取实验得到了较为理想的测试结果;但在命名实体识别、特征句型模式提取、槽值填充的实验方面召回率还比较低,主要原因在于设计的有限状态自动机较为简单

4、,汉语中丰富的句法结构没有被更多引入。另外,设计的实体类别、联系类别等也较简单,不能适应对该领域事件信息抽取的高要求,还需要下一步的改进。关键词:信息抽取事件模板向量空间模型模糊特征向量、有限状态自动机特征句型模式THESTUDYOFFOUNDATl0NOFTEMPLATESCENARIOONCHINESEINFORMATIONEXTRACTIONABSTRACTBegunat1960s',theworkofInformationExtraction(IE)isextractingspecialinformationfromunstructuredtexts.Info

5、rmationExtraction(IE)notonlyisoneofkeymeasuresforacquireinformationeffectively,butalsoisoneofimportantsidesfordealingwithtextinformation..AccordingtoMUC一7,InformationExtractionisdividedintofivetasks:NE(namedentity)identify,ER(entityrelation)identify,TS(templatescenario)extraction,CO(cor

6、eference)identify,TM(templatemerger)Theresearchofthispaperisthethirdphase:theextractionandfoundationoftemplatescenario.ThepaperusesSpanishMadridterroreventasexperimentobject,studiesthetextinformationfeatureofsuddenoccurrence,exploresautomaticacquiringofstudysuddentemplates.ByMachineLear

7、ningmethods,templatescenariosareestablished,describecharactersofeveryflank.Withmatchingandextractingarithmetic,wematchpattemsandextractknowledgefromtrainingtexts.TheworkdonebyauthorisasfoUows:First:Astrainingtexts,500textsaboutnewsofMadrid31blastoccurrenceareexpressedasvectorsp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。