欢迎来到天天文库
浏览记录
ID:20388963
大小:175.50 KB
页数:13页
时间:2018-10-13
《一种基于中文分词和数据聚合的餐饮行为特征挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一种基于中文分词和数据聚合的餐饮行为特征挖掘方法-石油矿藏论文一种基于中文分词和数据聚合的餐饮行为特征挖掘方法刘为怀才华何东杰(中国银联电子支付研究院上海201201)摘要针持卡人使用银行卡进行日常交易时,通过商户类别码(MCC)可以判断交易商户是否为餐饮商户,但是无法进一步细分交易商户所属菜系。为了分析持卡人餐饮行为特征,提出了一种银联数据与外部数据相结合的数据聚合方法。选择百度地图餐饮数据作为外部数据,对不同菜系的餐馆名进行中文分词、清洗,形成区分不同菜系的关键词组。以银联大数据平台为基础,百度数据与银联数据通过MapReduce技术进行聚合。
2、百度菜系的关键词组对银联餐饮商户进行菜系划分,带有菜系标签的银联餐饮商户数据与银联持卡人日常交易数据进行聚合,挖掘出持卡人餐饮行为特征。关键词大数据,中文分词,数据挖掘,数据聚合,餐饮行为特征中图分类号TP3文献标识码Adoi:10.3969/j.issn.1674-7933.2015.04.006作者简介:刘为怀,男,1981年生,硕士,助理经理,主要从事及研究领域:大数据平台数据挖掘及数据聚合的研究,Email:[emailprotected];才华,硕士,工程师;何东杰,硕士,工程师。0引言为了丰富持卡人画像,根据持卡人日常消费行为,对持卡人
3、进行打标签。我们选择衣食住行中的食——餐饮进行研究,以2014年上海市持卡人消费数据作为研究对象,分析上海市持卡人在餐饮行业的消费行为特征。银联数据只能识别商户是否为餐饮类,而无法进一步区分商户是中餐馆还是西餐馆等详细的菜系信息。因此,需要借助外部数据,补充银联商户菜系划分信息,并与银联交易数据相结合,形成持卡人餐饮基础数据,在此基础上,挖掘持卡人餐饮行为特征。1相关技术本节主要介绍中文分词和数据聚合的相关知识,选择结巴分词进行中文分词,数据聚合使用基于Hadoop平台的MapReduce编程模型。1.1结巴分词结巴分词是一个Python中文分词组
4、件[1],结巴分词包含以下三种算法[2]:1)基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);2)采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;3)对于未登录词,采用了基于汉字成词能力的隐马尔科夫模型(HMM),使用了Viterbi算法。结巴分词过程分为三步[3],具体如下:1)加载字典,生成trie树;2)给定待分词的句子,使用正则获取连续的中文字符和英文字符,切分成短语列表,对每个短语使用DAG查字典和动态规划,得到最大概率路径,对DAG中那些没有在字典中查到的字,组合成一个新的片段短语
5、,使用HMM模型进行分词,识别字典外的新词;3)使用Python的yield语法生成一个词语生成器,逐词语返回。1.2MapReduce编程模型MapReduce是Google于2004年提出的一个编程模型[4],是一个能够处理和生成超大数据集的算法模型的相关实现。为了能够快速处理超过1TB的数据,模型使用并行的方法将任务分配到数百个甚至千个计算节点。MapReduce编程模型的原理是:利用一个输入key/value集合产生一个输出的key/value集合。MapReduce库的用户用两个函数表达这个计算:map和reduce。map函数接受一个输
6、入的key/value值,然后产生一个中间key/value值的集合。MapReduce把所有具有相同中间key值I的中间value值集合在一起后传递给reduce函数。reduce函数接受一个中间key的值I和相关的一个value值的集合。reduce函数合并这些value值,形成一个较小的value值的集合。一般的,每次reduce函数只产生0或1个输出value值。map和reduce函数概括如表1所示:MapReduce的执行过程如图1所示,图左边是map任务运行示意图,右边是reduce任务运行示意图。如图1所示,左边map阶段,当map
7、任务开始运算并产生中间数据后,中间数据并非直接而简单的写入磁盘,MapReduce利用内存对中间数据进行缓存,并在内存中对中间数据进行一些预排序,优化整个map的性能。右边reduce阶段则经历了三个阶段:Copy→Sort→Reduce。我们能明显看出,其中Sort阶段采用的是归并排序,即mergesort。2特征挖掘本节首先介绍餐饮行为挖掘流程,其次介绍分词、清洗,最后介绍了数据聚合以及在聚合数据基础上进行的特征挖掘。2.1挖掘流程餐饮行为特征挖掘流程如图2所示,首先对百度餐饮数据进行分词、清洗,形成菜系关键词组,然后与银联商户数据进行聚合,形
8、成带菜系标签的银联商户数据,然后与银联交易数据进行聚合,形成餐饮基础数据,以此为基础,挖掘出餐饮行为特征。2.2分词调用百
此文档下载收益归作者所有