欢迎来到天天文库
浏览记录
ID:5293338
大小:160.00 KB
页数:6页
时间:2017-12-07
《基于依存关系的句法分析统计模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第40卷第6期中南大学学报(自然科学版)Vol.40No.62009年12月JournalofCentralSouthUniversity(ScienceandTechnology)Dec.2009基于依存关系的句法分析统计模型1,2袁里驰(1.江西财经大学信息学院数据与知识工程江西省重点实验室,江西南昌,330013;2.中南大学信息科学与工程学院,湖南长沙,410083)摘要:利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验。研究结果表明:利
2、用依存关系、互信息对词聚类,能解决模型数据稀疏问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为86.96%和85.25%,其综合指标F与Collins的头驱动句法分析模型的F相比提高4.75%。关键词:自然语言处理;词聚类;中心词驱动;句法分析统计模型中图分类号:TP391.1文献标志码:A文章编号:1672−7207(2009)
3、06−1630−06Statisticallanguageparingmodelbasedondependency1,2YUANLi-chi(1.SchoolofInformationTechnology,JiangxiUniversityofFinanceandEconomics,Nanchang330013,China;2.SchoolofInformationScienceandEngineering,CentralSouthUniversity,Changsha410083,China)Abst
4、ract:Byincorporatinglinguisticfeaturessuchassemanticdependencyandsyntacticrelations,anovelstatisticalParsingmodelwasproposed.Theexperimentswereconductedfortherefinedstatisticalparser.Theresultsshowthatthemodelisconstructedonwordcluster,sotheproblemofdata
5、sparsenessisnotserious.Themodelcantakeadvantageofafewsemanticdependenciesatthesametime.Themodelisaparserbasedonlexicalizedmodel,itiscombinedwithsegmentationandPOStaggingmodelandthusalanguageparserisbuilt.Thequestionscausedbycontext-freehypothesisandances
6、tor-freehypothesisinprobabilitycontextfreegrammararesolvedwellinthismodel.Itachieves86.96%precisionandrecall85.25%,Fvalueisimprovedby4.75%comparedwiththatofthehead-drivenparsingmodelintroducedbyCollins.Keywords:naturallanguageprocessing;wordclustering;he
7、ad-drivenparsingmodel;statisticalparsingmodel[1]句法分析,就是指根据给定的语法,自动地识数自然语言处理应用的关键因素,如机器翻译、信息别出句子所包含的句法单位和这些句法单位之间的关抽取、问答系统、检索系统等。句法分析的研究大体系。句法分析是自然语言理解的一个关键组成部分,分为2种途径:基于规则的方法和基于统计的方法。是对自然语言进行进一步语义分析的基础。随着自然基于规则的方法是以知识为主体的理性主义[2]语言应用的日益广泛,特别是对文本处理需求的进一(Ra
8、tionalism)方法,以语言学理论为基础,强调语言步增加,句法分析的作用愈加突出,它几乎成为大多学家对语言现象的认识,采用非歧义的规则形式描述收稿日期:2009−03−23;修回日期:2009−06−12基金项目:国家自然科学基金资助项目(60763001,60663007);中南大学博士后科学基金资助项目(2007年)通信作者:袁里驰(1973−),男,湖南邵阳人,博士,副教授,从事自然语言处理与语音识别研究;电话:135761260
此文档下载收益归作者所有