大规模web信息抽取与文本分类研究

大规模web信息抽取与文本分类研究

ID:35073111

大小:3.54 MB

页数:61页

时间:2019-03-17

大规模web信息抽取与文本分类研究_第1页
大规模web信息抽取与文本分类研究_第2页
大规模web信息抽取与文本分类研究_第3页
大规模web信息抽取与文本分类研究_第4页
大规模web信息抽取与文本分类研究_第5页
资源描述:

《大规模web信息抽取与文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、论文题目:大规模Web信息抽取与文本分类研究学号1213043125姓名曹攀导师王海艳专业学位类别工程硕士类型全日制专业(领域)软件工程论文提交日期2016年3月ResearchonLarge-scaleWebInformationExtractionandTextClassificationThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByPanCaoSupervisor:Prof.HaiyanWangMarch2016南京邮电大学学位论文原创性声明

2、本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加yx标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意与我。一。本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任年>11研巧生签名;靖辦日期:南京邮电大学学位论文使用授权声明本人授权南京邮电大学可W保留并向国家有关部口或机构送交论文的复印件和电子文档;允许论文被查阅和借闽;可W将学位论文的全

3、部或部分内容编入有关数据库进行检索;可W采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质一致论文的内容相。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研巧生签名;4齊导师签名:先日期:^。1仁n寺旅摘要随着互联网技术的迅速普及,Web平台已经发展成为一个巨大的信息共享空间,如何高效的从此平台中抽取信息已经成为一个亟待解决的问题;与此同时,在这些信息中文本类信息占据着极其重要的地位,而Web文本信息的结构特点与内容特点给传统的文本分类方法带来了新的挑战。针对以上情况,本文对大规模数据环境下的Web信息抽取

4、以及Web文本分类进行了研究,主要工作如下:首先,从Web信息抽取角度出发,提出一种基于DOM树节点属性与视觉特征的大规模Web信息抽取方法。该方法主要包含以下三个模块:(1)提出剪枝与融合方法,对Web页面对应的DOM树进行简化操作;(2)定义DOM树节点的密度属性和内容块的视觉特征,根据属性值与特征值对Web页面内容进行抽取;(3)引入MapReduce计算框架,对上述方法进行并行化处理,实现大规模Web信息的抽取。实验结果表明该方法是高效且可行的。其次,从Web文本分类角度出发,提出一种面向大规模文本类Web信息的分类方法。该方法主要包含以下三个模块:(1)针对Web长文本提出一种基于复

5、杂网络的特征选择方法,网络中的节点对应于文本中的词条,网络中的边对应于词条之间的关联,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于kNN的SVM决策树分类方法;(3)对于Web短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的一次检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。最后,基于上述的理论和方法,本文构建了面向大规模Web信息抽取与文本类Web信息的分类系统,分别从相关背景、系统结构以及各子模块展开详细的描述,包括需求分析、概要设计、详细设计及其实现流程,实验结果表明该系

6、统具备较高的稳定性。关键词:大规模,Web信息,信息抽取,特征选择,文本分类IAbstractWiththerapidpopularizationofInternettechnology,Webplatformhasbeenaglobal,huge,distributedandsharedinformationspace.HowtoextractvaluableinformationfromWebPagesisoneofthehottopicsintheWeb-basedapplicationfield.However,traditionalinformationextractionmetho

7、dsarefacedwithchallengesinbigdataenvironmentssothatefficiencyandaccuracyofthesemethodsarebadlyreduced.Atthesametime,howtoclassifythetextintheWebplatformisalsoanimportantproblem,traditionalclassificati

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。