一种基于mapreduce的改进文本输入方式的并行分词方法研究

一种基于mapreduce的改进文本输入方式的并行分词方法研究

ID:31363444

大小:117.50 KB

页数:11页

时间:2019-01-09

一种基于mapreduce的改进文本输入方式的并行分词方法研究_第1页
一种基于mapreduce的改进文本输入方式的并行分词方法研究_第2页
一种基于mapreduce的改进文本输入方式的并行分词方法研究_第3页
一种基于mapreduce的改进文本输入方式的并行分词方法研究_第4页
一种基于mapreduce的改进文本输入方式的并行分词方法研究_第5页
资源描述:

《一种基于mapreduce的改进文本输入方式的并行分词方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一种基于MapReduce的改进文本输入方式的并行分词方法研究  摘要:中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于MapReduce的并行分词方法。Mapreduce编程模型默认使用TextInputFormat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFileInputFormat父类,自定义文本输入方式MyInputFormat,并在实现createRecordReader方法过程中返回RecordReader对象。其次自定义MyRecordReader类来说明读取文本键值对的具体逻辑。最后自定义MapReduce函数实

2、现不同类别文本的分词结果。实验证明,基于改进后的MyInputFormat文本输入方式比默认的TextInputFormat输入方式,更能处理大量文本文件。  关键词:MapReduc;分片;TextInputFormat;CombineFileInputFormat  中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)22-0171-05  Abstract:Methodofwordsegmentationisaserialprocessanditfailstodealwithbigdata.Weputforwardaparallelwor

3、dsegmentationbasedonMapReduce.TextInputFormatisthedefaultinputclasswhenpreprocessingintheprogrammingmodelofMapreduce,whileitfailstoprocessdatasetswhichismadeupofmanysmall11files.Firstly,wedefineanewclassnamedMyInputFormatbasedontheclassofCombineFileInputFormat,andreturnanobjectofRecordR

4、eaderclass.Secondly,wedeclareMyRecordReaderclass,bywhichcanwewriteanewlogicmethodtoreadandsplittheoriginaldatatopairswhenimplementingthecreateRecordReadermethod.Last,wedefineourownmapreducefunction,bywhichcanwegetthefinalsegmentationresultsofdifferentcategories.Theexperimentalresultsind

5、icatethat,comparedwiththedefaultTextInputFormat,MyInputFormatsavesmuchtimetosegmentthetext.  Keywords:MapReduce;split;TextInputFormat;CombineFileInputFormat  中文分词是中文文本处理的基础,具有十分重要的理论和应用意义[1]。目前中文分词算法主要有3类:基于词典的分词方法,基于概率的分词方法和基于人工智能的分词方法。国内一些大的科研机构都对中文分词做了研究工作,比如,北京航空航天大学计算机系于设计实现CDWS中文分

6、词系统[2],中国科学院组织开发了基于多层隐马尔科夫模型ICTCLAS分词系统[2]。国外成熟的中文分词工具包是IKAnalyzer,它是一个开源基于JAVA语言的轻量级的中文分词第三方工具包[3],采用了特有的“正向迭代最细粒度切分算法”11,支持细粒度和智能分词两种切分模式。IKAnalyzer是以开源项目Lucene[4]为应用主体的,结合词典分词和文法分析算法的中文分词组件。Lucene是Apache基金会下的一个非常优秀的全文检索工具软件包,它可以嵌入在Java系统中,通过建立倒排链表结构,建立索引实现信息检索,具有高性能、可扩展的特点。  但是这些分词方法

7、都是传统的串行分词方法,不足以处理海量数据,例如微博数据[5],它是一种社会化媒体,包含了丰富的特征信息,具有规模大、实时性强、内容口语化、特征属性多和噪声大等特征[6]。  由Google实验室提出的Mapreduce并行分布式计算模型主要针对海量数据的处理,它能组织集群来处理大规模数据集,成为云计算平台主流的并行数据处理模型[7-8]。本文基于Mapreduce框架,通过结合使用IKAnalyzer和Lucene实现并行分词。  Mapreduce框架中默认使用TextInputFormat文本输入方式[8],该方式的对行文本的切分方法不适合处理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。