资源描述:
《基于条件随机场_crfs_的中文词性标注方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算机科学2006Vol133№110基于条件随机场(CRFs)的中文词性标注方法洪铭材张阔唐杰李涓子(清华大学计算机系知识工程组北京100084)摘要本文提出一种基于CRFs模型的中文词性标注方法。该方法利用CRFs模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98.56%和96.60%。关键词词性标注,条件随机场,维特比解码AChinesePart2of2speechTaggingApproachUsingConditionalRandomField
2、sHONGMing2CaiZHANGKuoTANGJieLIJuan2Zi(KnowledgeEngineeringLab,DCST,TsinghuaUniv.,Beijing100084)AbstractThispaperpresentsanewapproachtopart2of2speech(POS)taggingforChinesetextsusingconditionalran2domfields(CRFs).TotakeadvantageoftheabilityofusingarbitraryfeaturesasinputinCRFs,notonlycontextsofw
3、ordsareexploited,butalsoarenewstatisticalfeaturesadoptedformultiple2categoryandout2of2vocabularywords.ClosedandopentestsconductedonPeopleDailydatasetobtainPOStaggingaccuraciesof98.56%and96.60%,re2spectively.KeywordsPart2of2speechtagging,Conditionalrandomfields(CRFs),Viterbidecoding本文使用PFR《人民日报
4、》标注语料库作为实验数据。1引言实验结果表明,基于CRFs的中文词性标注方法取得了很好词性标注是自然语言处理的重要内容之一,是其他信息的标注正确率,其封闭测试和开放测试的准确率分别为98.处理技术的基础,被广泛地应用于机器翻译、文字识别、语音56%和96.60%,兼类词和未登录词的标注也取得了很好的识别、信息检索等领域。目前基于统计的词性标注方法得到结果。了广泛的应用并取得了很好的效果。文章的组织结构如下:第2节介绍中文词性标注的相关在基于统计方法的词性标注中,对兼类词和未登录词的工作;第3节阐述CRFs理论及其训练方法;使用CRFs进行标注是两个需要解决的问题。对于兼类词,可以根
5、据该词的中文词性标注的方法将在第4节中介绍;第5节是实验结果上下文信息来确定该词在句子中的唯一词性。对于未登录和实验分析;最后是对本文的概括以及对未来工作的展望。词,能够获取关于该词的信息相对较少,可以根据词的上下文2相关工作信息以及词的构词特点来确定其词性。在基于隐马尔可夫(HMM)模型的词性标注方法中,通常假设中心词的词性只词性是词的句法功能类别。在各种自然语言处理过程与它前面的n个词有关,而与它后面的词无关。这个假设在中,几乎都有一个词性标注的阶段。因此,词性标注的正确率词性标注任务中并不符合实际。最大熵模型(MEMM)能够将直接影响到后续的分析处理结果。基于其很高的重要性,
6、[1]充分利用词的上下文信息,但是存在着“labelbias”的弱点。词性标注一直是自然语言处理的重要内容。词性标注的方法本文使用条件随机场(ConditionalRandomFields,大致可以分为3类:[1]CRFs)进行中文的词性标注。CRFs通过建立概率模型来①基于规则的方法。基于规则的方法是最早提出的词性进行序列数据的标注。与最大熵模型一样,CRFs是指数形标注方法,它手工编制包含繁杂的语法和/或语义信息的词典式的模型,具有很强的推理能力,并且能够使用复杂、有重叠和规则系统。这种方法不仅费时费力,而且带有很大的主观性和非独立的特征进行训练和推理。目前CRFs在信息抽性,
7、难以保证规则的一致性。更大的问题是处理歧义长句、生取、命名实体识别、词组识别、语音句子边界识别等领域都表词、不规范句子的能力非常脆弱,词性标注准确率不高。现出很好的性能。本文利用CRFs的特点,在进行词性标注②基于变换的方法。该方法由EricBill提出,用于标注时不但利用了词的上下文信息作为特征,而且充分利用了训英语的词性,其基本思想是利用一个带词性标注的语料库来练集的统计信息作为特征,为兼类词的标注提供了更多的特例示实现设计好的模板,从一个已标注词性的语料库中统计