基于mapreduce模型的中文

基于mapreduce模型的中文

ID:9961106

大小:678.01 KB

页数:13页

时间:2018-05-12

基于mapreduce模型的中文_第1页
基于mapreduce模型的中文_第2页
基于mapreduce模型的中文_第3页
基于mapreduce模型的中文_第4页
基于mapreduce模型的中文_第5页
资源描述:

《基于mapreduce模型的中文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于MapReduce模型的中文分词张林梁21109220韩增曦21109225实验环境操作系统:Ubuntu10.10开发工具:jdk6-30+Eclipse+hadoop0.20.30+ssh实验设计一、目前比较成熟的的中文分词方法主要有:1.词典的正向最大匹配法2.词典逆向最大匹配法.3.基于确定文法的分词法4.基于统计的分词方法本程序利用了第一种与第三种分词法,即词典正向最大匹配法和基于确定文法的分词法实验设计二、建立三个文本字典:NumbersForeignsWords实验设计测试文本:实验设计三、分词方法(1

2、)词典的正向最大匹配法:1.将词典的每条读入内存,最长4个字,最短1个字.2.从语料中读入一文本文字,保存为字串.3.如果字符串长度大于4个中文字符,则取字符串最左边的4个中文字符,作为候选词;否则取出整个字符串作为候选词.实验设计4.在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最右字,重复这步进行查找,直到候选词为1个中文字符.5.将候选词从字符串中取出、删除,回到第3步直到字符串为空.6.回到第二步直到语料对完为止.实验设计(2)确定文法的分词方法基于确定文法的分词法可以进行数字、西文、时间的分词.1.增

3、加一个数字词典2.增加一个英文词典3.增加一个中文词典实验设计四、搭建hadoop伪分布、编MapReduce端口1.Map端:1)输入:IntWritableTextIntWritableText2)对划分好的块,通过Map端口进入后,提取文本,读入的文本以每行以“”为标记切分文本,并对文本分词,期间每行对加行号标注.实验设计3)将分好的文本输出到Reduce2.Reduce端:1)接受从Map输入的文本2)按行号输出文本程序运行信息:实验结果结果:程序代码见word:程序完成Thankyouforyouratte

4、ntion!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。