欢迎来到天天文库
浏览记录
ID:53909684
大小:193.06 KB
页数:5页
时间:2020-04-27
《疾病命名短语识别的最大熵方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第26卷第6期北京理工大学学报VOI.26NO.62006年6月TransactiOnsOfBeiingInstituteOfTechnOIOgyJun.2006!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!文章编号:1001-0645(2006)06-0517-04疾病命名短语识别的最大熵方法蔡晓白,樊孝忠(1.北京理工大学计算机科学技术学院,北京100081)摘要:提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分
2、类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%,召回率87.6%,F-评价值88.64%.关键词:最大熵模型;特征选择;本体;疾病命名短语识别中图分类号:TP391文献标识码:AMaximumEntropyMethodinRecognizingDiseaseNamedPhraseinChineseCAIXiaO-bai,FANXiaO-zhOng(SchOOIOfCOmputerScienceandTechnOIOgy,BeiingInstituteOfTechnOIOgy,Beiing100081,China)Abstract:Am
3、ethOdOfrecOgnizingdiseasenamedphraseinChineseisprOpOsed,basedOnamaximumentrOpymOdeI.InthefeatureseIectiOn,dOmainOntOIOgyinfOrmatiOnisutiIizedasakindOffeature.WiththesuggestedmethOd,thediseasenamedphraserecOgnitiOncIassifierhassupervisedIearningabiIityandtheabiIityOfassimiIatingandutiIizingdOmai
4、nknOwIedge.ExperimentaIresuItsshOwedaprecisiOnOfrecOgnitiOnfOrdiseasenamedphraseat89.7%,arecaIIOf87.6%andaF-measureOf88.64%.Keywords:maximumentrOpymOdeI;featureseIectiOn;OntOIOgy;diseasenamedphraserecOgnitiOn疾病命名实体是医学信息中一种基本的领域对有效地利用领域知识!作者提出一个基于最大熵模象,识别这类实体对于其它实体的识别具有关键作型的中文疾病命名短语识别方法,在统计模型的特用
5、!这类实体的主要形式是疾病命名短语!它们是征中引入领域本体信息,使分类器能够从本体知识由词项复合而成的短语结构,如“下肢肌肉痉挛”,中获得需要的词语特征!“股骨头局部受损”等!疾病命名短语大量出现在领1短语识别过程[1-2]域文本和互联网信息之中,是面向文本的信息抽取需要解决的问题!疾病命名短语的识别,通过BIE0标注模型将汉语命名实体识别的研究已经开展很多,但对问题转化成短语边界的标注问题处理!为此引入标领域相关的命名实体识别研究则较少,医学领域的注符号B,I,E,0!其中:B标志命名短语开始;I标命名实体识别还未见报道!领域相关的实体命名与志短语内部成分;E标志短语结束;0标志其
6、它!相应的标注问题描述为:输入一个词串序列"#,领域知识密切相关,领域相关的命名实体识别需要1="1收稿日期:20051027基金项目:教育部博士学科点专项科研基金资助课题(20050007023)作者简介:蔡晓白(1967-),男,博士生,E-maiI:caixb@bit.edu.cn;樊孝忠(1948-),男,教授,博士生导师.5l8北京理工大学学报第26卷,⋯,w,自动输出一个标志序列cI,c,⋯,前后各一个词,以及前一个词的标记信息,这样公式w2Il=cl2cI,ci!{B,I,E,0},其中BIE标志序列对应的词串(l)中的后验概率表示为PM(cIc,wi+l)=为识别的短
7、语.例如语料中句子:脊椎骨关节病的!ii-li-ll病变主要发生于椎间关节和椎间盘.在切分和词性Mil)标注基础之上,通过短语边界识别得到如下结果:exp["!mhm(ci-l,ci,wi-l]m=lM.(2)脊椎骨/D关节/D病/D的/u病变/VDexp[il)""!mhm(ci-l,c',wi-l][B][I][E][0][E]c'm=l主要/c发生/V于/p椎/D间/f式中:ci-l为wi-l的标注信息;ci为待标记信息;[0][0][0][B][0
此文档下载收益归作者所有