欢迎来到天天文库
浏览记录
ID:34502950
大小:2.52 MB
页数:56页
时间:2019-03-07
《深层神经网络的藏文命名实体识别研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391密级公开UDC学号20150613004青海师范大学硕士学位论文深层神经网络的藏文命名实体识别研究研究生姓名贡保才让导师姓名(职称)才让加,教授申请学位类别理学硕士学科专业名称计算机应用技术研究方向名称藏语计算语言学与机器翻译论文提交日期2018年3月论文答辩日期2018年5月学位授予单位青海师范大学学位授予日期2018年6月答辩委员会主席评阅人,青海师范大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不
2、包含其他人已经发表或撰写过的研究成果,也不包含为获得青海师范大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。研究生签名:日期:青海师范大学学位论文使用授权声明青海师范大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)
3、授权由青海师范大学研究生部办理。研究生签名:导师签名:日期:摘要深层神经网络的藏文命名实体识别研究摘要藏文命名实体识别是藏语自然语言处理的关键技术之一,也是机器翻译、信息提取和智能问答等综合应用的重要基础。藏文命名实体识别的工作目前主要使用统计方法,而统计的命名实体识别方法在处理文本形式、内容的多样化而面临效率低的问题,系统的泛化能力和可移植性较差,另外,基于统计的方法中还需要专家来根据语言学知识设计特征模板,其过程较为繁琐且系统实现周期较长。基于以上的不足,本文采用神经网络的方法结合藏文命名实体特点,利用深层神经网络模
4、型识别藏文命名实体,可显著提高藏文命名实体识别的F值。本文首先针对藏文命名实体识别任务和方法,对国内外的科研动态以及命名实体识别的方法、任务难点和关键技术进行了讨论与分析。其次,对藏文命名实体的局部与整体特征和本身存在的一些难点做了分析。在分别介绍HMM、CRF的建模过程与算法的基础上,指出了统计模型在实际应用的缺陷和不足。同时也分析了当前模型处理藏文命名实体任务中的技术瓶颈和需解决的重点问题,结合神经网络的优势指出了改进方法。然后,对神经网络的理论基础、优化方法与参数的选择做了详细介绍。继而针对处理藏文命名实体识别问题
5、分别介绍了几个较为主流的神经网络序列标注模型框架:词窗口、RNN、GRU、IDCNN+CRF、Bi_LSTM+CRF,并较为详细地介绍了其识别藏文命名实体的工作原理和优缺点。最后,在深层神经网络模型的基础上,针对藏文命名实体识别问题进行了大量的对比试验。通过对不同参数和模型框架下的结果对比分析,总结了一些对于藏文命名实体识别有用的参数选择经验。同时,在统一实验条件下对不同模型的藏文命名实体识别结果进行了对比。实验表明,深层神经网络模型在各个指标方面比CRF模型有较大的优势,具有更广的研究前景与应用价值。三种藏文命名实体的
6、总和打分情况为三个指标均有提升分别为2.41%(P)、8.35%(R)、5.71%(F)。特别是组织机构名(ORG)的得分提升幅度最为明显。另外,用IDCNN+CRF和Bi_LSTM+CRF来实现了基于字级别的藏文命名实体识别实验。从处理难度上讲,基于字级别的藏文命名实体任务更具挑战性,但在测试中获得了与词级别相当的F值,证明了这种分类器在藏文命名实体中的实用性。关键词:藏文命名实体识别,深度学习,神经网络,Bi_LSTM+CRFI青海师范大学硕士学位论文StudyonTibetanNamedEntityRecognit
7、ionusingDeepNeuralNetworksAbstractNamedEntityRecognitionistheoneofkeytechniquesinTibetanNaturalLanguageProcessing,italsoservesasaveryimportantbasisformanyapplicationssuchasMachineTranslation,InformationRetrievalandintelligentQ&A.TherecentlyresearchinthefieldofTib
8、etanNamedEntityRecognitionstillstaysatthestageofusingstatisticalmethods,andthestatistics-basedapproachesmakethetaskinefficientduetothediversityoftheprocessedte
此文档下载收益归作者所有