基于大规模文本数据集的相似检测关键技术研究

基于大规模文本数据集的相似检测关键技术研究

ID:35063823

大小:5.37 MB

页数:130页

时间:2019-03-17

基于大规模文本数据集的相似检测关键技术研究_第1页
基于大规模文本数据集的相似检测关键技术研究_第2页
基于大规模文本数据集的相似检测关键技术研究_第3页
基于大规模文本数据集的相似检测关键技术研究_第4页
基于大规模文本数据集的相似检测关键技术研究_第5页
资源描述:

《基于大规模文本数据集的相似检测关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、歷IilWliiillllB^BIi^I|||1iiiii^^MHMW||1未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否贝I。J,应承坦侵权的法律责任吉林大学博dr学位论文原创性声明本人郑重声明:所呈交的博±学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容夕h,本

2、论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:苗余日期:2016年06月化妃基于大规模文本数据集的相似检测关键技术研究ResearchonKeyApproachesofSimilarDetectingBasedonMassiveTextDataSet作者姓名:王海涛专业名称:计算机系统结构指导教师:刘淑芬学位类别:工学博士论文答辩日期:2016年06月07日授予学

3、位日期:2016年月日论文评阅人:答辩委员会组成:姓名职称工作单位姓名职称工作单位盲审专家正高级西安交通大学主席许东教授美国密苏里大学中国科学院计算机盲审专家正高级委员马志强教授东北师范大学网络信息中心盲审专家正高级北京航空航天大学梁艳春教授吉林大学刘淑芬教授吉林大学刘元宁教授吉林大学王林聪教授吉林大学摘要摘要基于大规模文本数据集的相似检测关键技术研究随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,数据是与自然资源、人力资源一样重要的战略资源;掌控数据资源的能力是国家数字主动权的体现。因此数据

4、的收集、存储、处理、分析以及由此产生的信息服务正成为全球信息技术发展的主流,大数据研究和应用已成为产业升级与新产业崛起的重要推动力量。作为一种商业资本和战略资源,大数据在带给推动力的同时,也带来了挑战;如何在海量数据中探寻有价值的资源,是摆在研究者面前的首要任务。然而,海量信息中也夹杂了大量重复或相似内容,这些内容的存在,不但浪费了大量存储资源,降低网络的传输速度,也直接影响搜索引擎的整体性能,加重了用户寻找有价值资源的负担。大数据处理目标是以有效的信息技术手段和计算方法,挖掘和提取数据中的深度价值资源,为行业提

5、供高附加值的应用和服务。因此,如何有效管理和利用海量信息,使用合适的技术,筛选掉其中无用或不相关的内容,快速高效地发掘出潜在价值的知识与信息,并进行合理分类、准确定位,是当前大数据处理中亟需解决的问题。因此,本论文针对大规模文本数据的相似检测问题,围绕数据的分类与挖掘、特征提取、相似检测、MapReduce计算模型等相关理论和关键技术的研究,设计了以关联规则和朴素贝叶斯为基础的多重置信门限值分类分类方法;提出基于互信息的词频文本特征提取方案;构建了并行化的大规模文本相似检测平台。本研究在理论上具有创新性,实践上有

6、可行性。具体来说,主要工作与创新体现在以下方面:1.针对相似检测的背景知识,研究针对文本分类的相关理论与技术。文本分类的任务是在给定的分类体系下,根据每类样本的数据信息,建立相应的类别判定公式和类别判定规则,并总结出分类规律。这样,当需要为待分类文本确定其I吉林大学博士学位论文类别时,根据已总结的类别判定公式和类别判定规则,就能够把待分类文本划分到相应的类别中去。分类过程包括:文本预处理、特征选择、特征加权、文本表示和分类算法等关键技术;论文在对上述过程进行深入的研究后,重点研究分类器的设计与实现、分类评价标准等

7、;上述过程的研究,为文本相似检测奠定理论基础。2.针对相似检测过程分类精确率低等问题,结合朴素贝叶斯分类和关联规则挖掘,提出了一种具有多重门限值的分类方法。该方法应用于大规模文本数据集的分类过程,能有效地提高文档分类精确度。由于贝叶斯分类优点在于计算过程简单,但忽略了文本词组间的相互联系,所以可采用关联规则挖掘方法,为有关系的文本类设定合适置信门限值,分类器将为文档分类的执行获得较高的精确率,从而弥补了贝叶斯分类的缺点。该方法首先通过算法将预处理的文本数据库转变成关联规则,在排序规则集中,对训练数据集的分类从第一

8、条规则开始判断,若第一条规则分类精确率比指定规则的置信门限值高,则从训练数据集中删除通过指定规则分类的数据,并且保存这一规则到规则集中去,创建关联分类器;否则,这一规则将从分类器中删除。该过程一直重复进行下去,直到所有排序的规则都被识别后,获得所有支持度大于最小支持度的关联规则。实验验证表明,该方法相比较于单独分类器的分类结果,能够获得较高的分类精确率和召回率。3.针对在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。