基于多层协同纠错的中文层次句法分析-论文.pdf

基于多层协同纠错的中文层次句法分析-论文.pdf

ID:53762117

大小:842.97 KB

页数:8页

时间:2020-04-24

基于多层协同纠错的中文层次句法分析-论文.pdf_第1页
基于多层协同纠错的中文层次句法分析-论文.pdf_第2页
基于多层协同纠错的中文层次句法分析-论文.pdf_第3页
基于多层协同纠错的中文层次句法分析-论文.pdf_第4页
基于多层协同纠错的中文层次句法分析-论文.pdf_第5页
资源描述:

《基于多层协同纠错的中文层次句法分析-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第28卷第4期中文信息学报Vo1.28,No.42014年7月JOURNAL0FCHINESEINFORMATIONPROCESSINGJu1.,2014文章编号:1003—0077(2014)04—0029—08基于多层协同纠错的中文层次句法分析蒋志鹏,关毅,董喜双(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001)摘要:层次句法分析是一种简单快速的完全句法分析方法,该方法将句法分析分解为词性标注、组块分析和构建句法树三个阶段。该文将其中的组块分析细分为基本块分析和复杂块分析,利用条件随机域模型代替最大熵模型进行序列化标注。由于层次

2、句分析中错误累积问题尤为严重,该文提出了一种简单可行的错误预判及协同纠错算法,跟踪本层预判的错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错。实验结果表明,加入纠错方法后,层次句法分析在保证解析速度的同时,获得了与主流中文句法分析器相当的解析精度。关键词:层次句法分析;条件随机域模型;组块分析;多层协同纠错中图分类号:TP391文献标识码:AAChineseHierarchicalParsingApproachBasedonMulti—layerCollaborativeCorrectionJIANGZhipeng,GUANYi,DO

3、NGXishuang(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin,Heilongjiang150001,China)Abstract:Hierarchicalparsingisasimpleandrapidcompletesyntacticanalysismethod,whichcanbedecomposedintothreestages:POStagging,chunkingandparsingtreeconstruction.Inthispap

4、er,chunkingisfurtherdividedintobasechunkingandcomplexchunking,andconditionalrandomfieldmodelisadoptedforsequencelabclingin—steadofmaximumentropymode1.Consideringerroraccumulation,whichisaparticularlyseriousprobleminhierar—chicalparsing,thispaperpresentsasimpleandpracticalerro

5、rpredictingandcollaborativecorrectingmethod,bytrackingthepredictederrorsinthislayertOthenextlayerandcombinespredictionscoresoftWOlayerstOcorrecter—rorcollaboratively.Theexperimentalresultsshowthathierarchicalparsingwitherrorcorrectionachievesalmostthesameanalyticprecisionofth

6、emainstreampredictionChineseparsers.Keywords:hierarchicalparsing;conditionalrandomfieldmodel;chunking;multi—layercollaborativecorrection界,R/K为在句法分析过程中用到的规则或知识1’引言(例如,上下文信息、语义信息)。从处理方向上讲,句法分析可以分为自底向上分析器和自顶向下分析句法分析是根据给定的语法体系,分析句子所器。自顶向下分析器从句法树顶部的开始符号向下包含的语法单元和这些语法单元之间的关系_1],将处理

7、,以产生式驱动的方式顺序工作直到到达叶子句子转化为一个非线性的数据结构(例如,短语结构节点;自底向上分析器开始于字符串本身,反向应用/产生式直到到达开始符号。树或有向无环图),形式化定义为WT,其中,层次句法分析是一种典型的自底向上分析方W===<硼,W。,⋯,W>为输入句子的词序列,丁为法,其优点是时空开销小、易于实现,但是错误累积一系列短语、词语和符号构成的树形拓扑层次结构,问题严重[2]。Abney[3_早在1991年就提出了组块这里T定义为一个三元组T一(W,C,B),C一

8、T中每个结点的成分标记,B===<6t,析的先驱。Ramshaw[4等人在组块分析中加入{B,b。,⋯b>为丁中每个结点包含w中若干结点

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。