欢迎来到天天文库
浏览记录
ID:52352580
大小:156.55 KB
页数:3页
时间:2020-03-26
《基于多特性融合的代词消解方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、学术探讨·信垂处瞿基于多特性融合的代词消解方法研究刘利(泸州I职业技术学院信息工程系,四川泸州I6460051[摘要]互联网已成为一个海量的开放式知识库,其中包含着许多有价值的信息,而网页是互联网信息承我的载体,将信息结构化成为知识库构建的基础。网页信息不仅包含许多指代词,还含有自身的标题。指代词消解是信息结构化的前提,综合网页信息具有的一般性和特殊性的特点,本文提出基于多特性融合的代词消解方法研究,能更好地适应网页信息代词的消解,提高网页信息代词消解的准确率。[关键字]多特性;标题;代词消解;信息结构化中图分类号:TP391.1文献标识码:A文章
2、编号:1008—6609(2016111_0042.031引言互联网信息具有规模庞大、样式多样、信息散乱等特点。而网页是互联网信息承载的载体,利用互联网构建知识库,成了对海量网页信息的抽取及结构化的过程。网页信息结构化的前提是代词消解,代词消解的结构直接影响到信息结构化的准确率。当前,绝大多数的网页信息都具有标题,对标题的描述包含在信息正文中,网页文本信息抽取模块将充分考虑网页信息的特征,建立适合它的文本信息抽取方法。目前常见的代词指代消解方法有王智强等【11人提出了基于决策树的汉语共指消解方法;庞宁等口,人提出的利用最大熵来训练模型的方法;李国臣
3、等人”1结合庞宁等人的方法后提出了基于语料库的决策树机器学习算法;董国志等人”1总结了基于规则和基于统计方法的缺点,提出基于规则预处理与最大熵模型相互结合的方法,在准确率和召回率上有所提高。上述常用的指代消解方法不能很好地适应网页正文信息,比如:百度百科中有关李彦宏的介绍,标题为“李彦宏百度百科”,有一段话为:“他要参战!在美国一批搜索引擎公司已崛起,而他选择了回国创业。他回忆这段人生抉择时说,‘我小时候有很强的不服输心理,越是大家不看好的事,我越是要做成。”’,其中并没有出现过他的名字。如果用董国志等人的方法,则在这段话的代词消解上不能实现。本文
4、结合董国志等人的指代消解方法和网页的特性提出基于多特性融合的代词消解方法研究,能很好地适应上述情况。2标题统计分析网页信息抽取模块产生的大量文本信息有其特殊性,比如抽取信息涉及主题范围广、绝大数网页都有标题或者子标题等。经统计发现标题中通常包含有该文本信息描述的命名实体,这个特征来源于网页正文信息和标题的关系。因此在命名实体识别方面,本文利用西南交大中文分词系统”,对网页的标题以及网页内容进行分词,然后利用统计的方法,统计出标题的实体词频数最高的两个词(下面简称FWord和Sword),实验表明这两个词最有可能是文章的主旨词。采用的评价标准是正确率
5、(P,),具体公式如下:D一正确提取信息个数q实验信息总数本文选取体育类、财经类、人物类等领域各200个网页和大规模网页集中的200个网页,用公式(1)计算主旨词提取的正确率,其结果如表l所示。表1标题词频统计实验信息来源信息总数正确率人物类20097%医药招商类20075.5%体育类20085%娱乐类20093.5%财经类20081.5%贴吧和论坛类20096%任意20087.5%在医药招商类信息的正确率较低,究其原因在于标题里面含有的噪声信息太多,导致统计词频确定主旨词时定位在作者简介:刘利(1988一),男,四川泸州人,硕士研究生,研究方向为
6、人工智能、数据挖掘。..42..学术探讨·信垂始瞿噪声信息上。从财经类和体育类的词频统计结果来看,它们的标题有些采用比喻的手法,导致在确定标题主旨词时定位出错。不过在整体上的正确率还是较高的,说明通过标题的词频统计能反映出文章的主旨。3算法描述本文对网页信息代词消解具体流程,如图1所示。文本信息集L叮——、,词性标注j代词过滤iI垂于规则摺代捐解0I基于统计指代消解j图1指代消解流程先用西南交大分词”1对网页文本信息进行分词,提取信息里面所有的代词,再用算法消解代词。在算法消解代词过程中,采取以下规则:规则1:如果人称代词是单数,则找到表示人并且是
7、单数概念的名词。如果人称代词是复数,则找到连词(比如“和”、“同”等)连接的并列结构或有复数概念的词。规则2:如果指代词是指男性概念的,比如他、他的等,则在候选消解词中找到语义类相同并且性别相同的词进行消解。同理,如果代词为“她”或者“她的”,则需要找相应性别的人进行消解。规则3:指代词和候选消解词之间的语义类要相同,比如对于表人的代词,候选消解词语义也要表“人”。同理,对于表物的代词,候选消解词也要表“物”,比如公司、地点、组织等都表示为物的。在判断实体词的语义方面,本文用的是“知网”中文语义库识别的””1。规则4:在选取候选消解词时限制在指代词
8、所在位置的前两句以内,在计算时设定一个句子的距离值为1,也就是限制距离为3的范围以内。并且距离指代词越近则该候选消解词的权
此文档下载收益归作者所有