基于hadoop的微博文本分类及商业词抽取

基于hadoop的微博文本分类及商业词抽取

ID:33144646

大小:1.50 MB

页数:63页

时间:2019-02-21

基于hadoop的微博文本分类及商业词抽取_第1页
基于hadoop的微博文本分类及商业词抽取_第2页
基于hadoop的微博文本分类及商业词抽取_第3页
基于hadoop的微博文本分类及商业词抽取_第4页
基于hadoop的微博文本分类及商业词抽取_第5页
资源描述:

《基于hadoop的微博文本分类及商业词抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文题目:基于hadoop的微博文本分类及商业词抽取研究生陈应友专业计算机应用技术指导教师吴卿副教授完成日期2012年12月杭州电子科技大学硕士学位论文基于hadoop的微博文本分类及商业词抽取研究生:陈应友指导教师:吴卿副教授2012年12月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterMicro-blogtextclassificationandcommercialwordextractionbasedonHadoopCandidate:ChenYingyouSupervisor:

2、ViceProf.WuQingDecember,2012杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:日期:年月日学位论文使用授权说明本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业

3、离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)论文作者签名:日期:年月日指导教师签名:日期:年月日杭州电子科技大学硕士学位论文摘要随着计算机技术和网络技术的飞速发展,微博已经普及成为国内的一大新型媒体。微博用户基数的迅速膨胀,加上信息的逐级传播,与之俱来的问题是微博数据规模达到空前水平。面对微博服务迅猛发展中所产生的海量文本数据,如何准确有效的从中定向发现并获取所需要的有较高商业价值的资料和信息,进而

4、提高广告精准度成为各微博平台数据研究处理的一大目标,本文将对如何有效的从海量微博文本数据中发现和抽取商业关键词进行研究。为了更有针对性的进行商业关键词抽取,首先对海量微博数据进行了文本分类,一方面降低了单次数据处理的规模,另一方面对同类数据进行处理研究将更有针对性。再对各个类别中文本的关键词结合互联网搜索引擎中的搜索权值进行调权,有效提高了微博文本中商业关键词抽取的精准度。由于微博文本数据具有总体数量多、单条简短及内容随意性大等特性,在利用传统分类方法及商业信息提取算法对其进行处理时存在一定的局限性。本文考虑到单条微博文本信息简短包含的有效特征少,且内容比较口语化的特性,从相似词

5、及搭配词方面对文本的特征词进行了扩展,尽量降低特征丢失的可能性;结合微博文本数量多及内容随意性大的特性,提出了一种基于特征词类别分散性及分散程度的微博文本分类方法。考虑到微博自有的转发数、评论数及海量规模等因素,本文对传统的TF-IDF算法进行了相关改进,利用hadoop云计算平台并以单个用户的所有微博信息作为计算单元应用改进的TF-IDF算法,再综合词语在互联网搜索引擎中的搜索权值进行调权,实现了从海量数据中对具有商业价值关键词的有效抽取。实验表明,该微博分类方法在微博信息的分类中取得了较好的效果,在微博数据处理应用场景中,综合了改进的TF-IDF权重及词语互联网搜索权重的商业

6、关键词抽取算法,具有较好的适用性及商业效果。而结合了云计算平台后,一定程度上提高了数据处理效率,使得对海量微博数据集上的处理变得可行有效。关键词:微博文本,商业词抽取,特征词扩展,海量数据,hadoopI杭州电子科技大学硕士学位论文ABSTRACTWiththerapiddevelopmentofcomputertechnologyandnetworktechnology,Micro-bloghasbecomeasamajordomesticmediapopularity.Asthenumberofmicro-blogusersrapidlyexpandingandinforma

7、tiononprogressivetransmission,theproblemcausedbythoseisthatthescaleofmicro-blogdatatoanunprecedentedlevel.Facedwiththethemasstextdatageneratedintherapiddevelopmentofthemicro-blogservice,howtoaccuratelyandefficientlyprocessingthesedataandorien

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。