资源描述:
《_一种基于循环神经网络的古文断句方法_一种基于循环神经网络的古文断句方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、北京大学学报(自然科学版)第53卷第2期2017年3月ActaScientiarumNaturaliumUniversitatisPekinensis,Vol.53,No.2(Mar.2017)doi:10.13209/j.0479-8023.2017.032一种基于循环神经网络的古文断句方法11,2,3,†4王博立史晓东苏劲松1.厦门大学智能科学与技术系,厦门361005;2.厦门大学两岸关系和平发展协同创新中心,厦门361005;3.福建省类脑计算技术及应用重点实验室,厦门361005;4.厦门大学软件学院,厦门361005
2、;†通信作者,E-mail:mandel@xmu.edu.cn摘要提出一种基于循环神经网络的古文自动断句方法。该方法采用基于GRU(gatedrecurrentunit)的双向循环神经网络进行古文断句。在解码过程中,该算法不仅利用神经网络输出的概率分布,还进一步引入状态转移概率和长度惩罚,以便提高断句准确率。在大规模古籍语料上的实验结果表明,所提方法能够取得比传统方法更高的断句F1值。关键词古汉语;断句;循环神经网络中图分类号TP391ASentenceSegmentationMethodforAncientChineseTex
3、tsBasedonRecurrentNeuralNetwork11,2,3,†4WANGBoli,SHIXiaodong,SUJinsong1.DepartmentofCognitiveScience,XiamenUniversity,Xiamen361005;2.CollaborativeInnovationCenterforPeacefulDevelopmentofCross-StraitRelations,XiamenUniversity,Xiamen361005;3.FujianProvinceKeyLaboratory
4、forBrain-inspiredComputing,Xiamen361005;4.SoftwareSchool,XiamenUniversity,Xiamen361005;†Correspondingauthor,E-mail:mandel@xmu.edu.cnAbstractThispaperproposesanautomaticsentencesegmentationmethodforancientChinesetextsbasedonrecurrentneuralnetwork(RNN).Abi-directionalR
5、NNstructurewithgatedrecurrentunits(GRU)isimplemented,andstatetransitionprobabilityandlengthpenaltyareemployedindecodingtoimprovetheaccuracy.ExperimentalresultsshowthatproposedmodelachieveshigherF1scorethantraditionalmethods.KeywordsancientChinese;sentencesegmentation
6、;recurrentneuralnetwork数千年的中华文明留下浩如烟海的古籍,这些1相关工作古籍对现代人了解古代历史、社会和文化发展具有重要的价值。但是,古汉语中没有标点符号。古人[1]黄建年等采用计算机辅助的方法,从已断句著书时,通常不对句子停顿进行标记,而是由读者的古文中提取句子切分的特征模式,利用这些特征阅读时自行标记,即“句读”,这给现代人阅读和研模式构造断句规则,采用正则表达式替换的方法,究古籍带来很大的困难。利用最新的自然语言处理进行古文断句。实验结果表明,上下文特征对古文技术,对大量未断句的古文进行自动断句,不
7、仅能断句具有重要的作用,但这种基于规则的方法并不帮助人们克服阅读障碍,也是进一步对古籍文本进适用于大规模古籍处理。[2]行处理(如古文分词等)所必要的前期工作,对于古陈天莹等最早采用统计方法进行古文断句,汉语研究、古籍整理与文史知识挖掘具有重要的他们将古文断句看成一个分类问题,提出一种基于意义。上下文N-gram模型的古文断句方法。该方法利用教育部专项“简繁汉字智能转换系统”、国家科技支撑计划项目(2012BAH14F03)、教育部博士点基金(20130121110040)、国家自然科学基金(61573294)和CCF中文信息技
8、术开放课题(CCF2015-01-01)资助收稿日期:20160729;修回日期:20161007;网络出版日期:20161130255北京大学学报(自然科学版)第53卷第2期2017年3月训练语料上的频率统计信息,计算文本中各处需要标点。断句的概率