中文分词实验

中文分词实验

ID:20444804

大小:1.64 MB

页数:13页

时间:2018-10-12

中文分词实验_第1页
中文分词实验_第2页
中文分词实验_第3页
中文分词实验_第4页
中文分词实验_第5页
资源描述:

《中文分词实验》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文分词实验一、实验目的:目的:了解并掌握基于匹配的分词方法,以及分词效果的评价方法。实验要求:1、从互联网上查找并构建不低于10万词的词典,构建词典的存储结构;2、选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最大匹配法等)。3、在不低于1000个文本文件,每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、分词速度。预期效果:1、平均准确率达到85%以上二、实验方案:1.实验平台系统:win10软件平台:spyder语言:python2.算法选择选择正向减字最大

2、匹配法,参照《搜索引擎-原理、技术与系统》教材第62页的描述,使用python语言在spyder软件环境下完成代码的编辑。算法流程图:13/13FigureError!Nosequencespecified..正向减字最大匹配算法流程13/13FigureError!Nosequencespecified..切词算法流程算法伪代码描述:13/131.实验步骤1)在网上查找语料和词典文本文件;2)思考并编写代码构建词典存储结构;3)编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字;4)编写分

3、词代码;5)思考并编写代码将语料标注为可计算准确率的文本;6)对测试集和分词结果集进行合并;7)对分词结果进行统计,计算准确率,召回率及F值(正确率和召回率的调和平均值);8)思考总结,分析结论。2.实验实施我进行了两轮实验,第一轮实验效果比较差,于是仔细思考了原因,进行了第二轮实验,修改参数,代码,重新分词以及计算准确率,效果一下子提升了很多。13/13实验过程:(1)语料来源:语料来自SIGHAN的官方主页(http://sighan.cs.uchicago.edu/),SIGHAN是国际计算语言学会(A

4、CL)中文语言处理小组的简称,其英文全称为“SpecialInterestGroupforChineseLanguageProcessingoftheAssociationforComputationalLinguistics”,又可以理解为“SIG汉“或“SIG漢“。SIGHAN为我们提供了一个非商业使用(non-commercial)的免费分词语料库获取途径。我下载的是Bakeoff2005的中文语料。有86925行,2368390个词语。语料形式:“没有孩子的世界是寂寞的,没有老人的世界是寒冷的。”Fi

5、gureError!Nosequencespecified..notepad++对语料文本的统计结果(2)词典:词典用的是来自网络的有373万多个词语的词典,采用的数据结构为python的一种数据结构——集合。13/13FigureError!Nosequencespecified..notepad++对词典文本的统计结果(1)分割测试数据集:将原数据分割成1500个文本文件,每个文件的词数大于1000。FigureError!Nosequencespecified..测试数据集分解截图13/13Figure

6、Error!Nosequencespecified..其中某文件的形式FigureError!Nosequencespecified..notepad++对其中一个测试文本的统计结果(1)编写分词代码:采用python语言和教材上介绍的算法思路,进行编程。(2)编写代码将语料标注为可计算准确率的文本:用B代表单词的开始字,E代表结尾的字,BE代表中间的字,如果只有一个字,用E表示。例如:原数据是:“人们常说生活是一部教科书”而我将它转化为了如下格式:人B们E常E说E生B13/13活E是E一E部E教B科BE书E

7、(1)进行分词:使用之前编写的分词函数,载入文本,进行分词,将每个文本结果输出到txt文本。FigureError!Nosequencespecified..分词结果文件13/13Figure9.测试数据的形式(文本截图)Figure10.分词结果(文本截图)用时17秒左右:Figure11.运行时间(1)13/13对测试集和分词结果集进行合并:将测试集和分词结果集合并是为了进行准确率,召回率等的计算。测试集和训练集都是下面的格式:人B们E常E说E生B活E是E一E部E教B科BE书E我将他们合并为下面的格式,第

8、二列为测试集的标注,第三列为训练集的结果:人BB们EE常EE说EE生BB活EE是EE一EBE部EE教BB科BEBE书EE(1)对分词结果进行统计,计算准确率P,召回率R及F值(正确率和召回率的调和平均值),设提取出的信息条数为C,提取出的正确信息条数为CR,13/13样本中的信息条数O:P=CRCR=CROF=2×P×RP+R计算结果如下: 召回率R准确率PF值B73.99%76.42%75.18%

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。