中医问诊语料库的建立、初步加工和词频统计-毕业论文

中医问诊语料库的建立、初步加工和词频统计-毕业论文

ID:12485596

大小:412.00 KB

页数:47页

时间:2018-07-17

中医问诊语料库的建立、初步加工和词频统计-毕业论文_第1页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第2页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第3页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第4页
中医问诊语料库的建立、初步加工和词频统计-毕业论文_第5页
资源描述:

《中医问诊语料库的建立、初步加工和词频统计-毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中医问诊语料库的建立和初步加工本科毕业论文(科研训练、毕业设计)题目:中医问诊语料库的建立、初步加工和词频统计姓名:学院:软件学院系:专业:软件工程专业年级:学号:指导教师(校内):职称:指导教师(校外):职称:年月日47中医问诊语料库的建立和初步加工中医问诊语料库的建立、初步加工和词频统计【摘要】随着现代社会计算机技术的发展,传统中医诊断和现代计算机技术的结合成为了现代中医发展的一种趋势。中医问诊语料库的建立对实现传统中医问诊的计算机化有着重要意义。本文介绍了中医问诊语料库建立的意义,语料库建立、初步加工(分词,属性标注和词频统计)和基于熟语料库的

2、词频统计的具体实现。【关键词】中医问诊语料库分词标注词频47中医问诊语料库的建立和初步加工TheEstablishmentAndPrimaryProcessingOfLanguageDatabaseAboutInquiryInChineseMedicine【Abstract】Asthedevelopmentofcomputertechnolgyinmodernsociety,modernChineseMedicinefollowedthetrendtocombinatethetraditonalChineseMedicinewithmoderncom

3、putertechnology.TheestablishmentofcorpusaboutinquiryinChineseMedicineisveryimportanttorealizethecomputer-baseddiagnosisoftraditionalChineseMedicine,thisarticleintroducesthesignificanceofestablishmentofcorpusaboutinquiryinChineseMedicineanddetailedrealizationtechniqueinestablish

4、mentandprimaryprocessingoflanguagedatabase(segmentofword,labelofwordattribute)andCountingoffrequencyofword.【Keywords】InquiryinChineseMedicineCorpusSegmentofwordLabelofwordattributeFrequencyofword47中医问诊语料库的建立和初步加工目录第一章引言5§1.1汉语语料库的发展现状5§1.2中医问诊语料库建立的必要性5§1.3中医诊断语料库的初步加工6§1.4基于中医

5、诊断熟语料库的词频统计6第二章中医问诊语料库建立和加工的技术知识6§2.1语料分词62.1.1基于字符串匹配的分词算法72.1.2基于概率统计的分词方法92.1.3基于理解的分词方法11§2.2词频统计程序设计算法112.2.1.逐字匹配算法122.2.2.KMP算法122.2.3.Boyer_Moore算法12第三章中医问诊语料库的建立和初步加工的具体实现14§3.1具体步骤143.1.1原始语料库的建立143.1.2对原始语料的分词和属性标注143.1.3基于“熟语料“的词频统计15§3.2词频统计程序的具体设计163.2.1程序界面163.2.

6、2程序中涉及到的类和定义的函数163.2.3程序实现的具体流程17第四章课题成果21第五章结束语21致谢语22参考文献2347中医问诊语料库的建立和初步加工第一章引言§1.1汉语语料库的发展现状语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。汉语语料库顾名思义就是存放汉语材料的仓库。建立大型、国家级现代汉语语料库是推进我国信息化进程的基础工程

7、。近年来,随着我国经济的快速发展,科研经费的大量增加,汉语语料库的建设得到开展。国家语委从1991年开始组织建立现代汉语语料库,1993年国务院批准的国家语委三定方案规定了建立国家级现代汉语语料库的职能。至此,语料库的建立已经取得较大的成果,逐步建立了数个国家级,具有较大应用价值的汉语语料库。例如,由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立的国家语委现代汉语语料库,该语料库按照通用性、描述性、实用性等原则系统地抽样选择了1919-1992年的现代汉语语言材料7000万字,由人文与社会科学、自然科学及综合三个大类约40个小

8、类组成,已经于2001年底建成;由北京大学计算语言学研究所和富士通公司联合开发加工的《人民日报》标注语料库,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。