web中文文本分类技术研究与实现

web中文文本分类技术研究与实现

ID:33508325

大小:3.30 MB

页数:74页

时间:2019-02-26

web中文文本分类技术研究与实现_第1页
web中文文本分类技术研究与实现_第2页
web中文文本分类技术研究与实现_第3页
web中文文本分类技术研究与实现_第4页
web中文文本分类技术研究与实现_第5页
资源描述:

《web中文文本分类技术研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、(申请工学硕士学位论文)Web中文文本分Web中文文本分类技术研究类技术与实现研究与实现王晓宁培养单位:信息工程学院学科专业:通信与信息系统武汉研究生:王晓宁理工指导教师:陈伟教授大学2014年4月万方数据分类号密级UDC学校代码10497学位论文题目Web中文文本分类技术研究与实现英文ResearchandimplementationonWebChinesetext题目categorizationtechnology研究生姓名王晓宁姓名陈伟职称教授学位博士指导教师单位名称自动化学院邮编430070姓名职称学位副指导教师单位名称邮编申

2、请学位级别硕士学科专业名称通信与信息系统论文提交日期2014年4月论文答辩日期2014年4月学位授予单位武汉理工大学学位授予日期答辩委员会主席刘泉评阅人李方敏刘泉2014年4月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:王晓宁日期:学位论文使用授权

3、书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人承诺所提交的学位论文(含电子学位论文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):王晓宁导师(签名):陈伟日期万方数据武汉理工大学硕士

4、学位论文摘要在信息化的大背景下,Web的飞速发展及互联网的普及给我们的工作和生活带来了极大的便捷,网络成为人们获取信息的重要来源。不过由于异构与开放的Internet网络,大量垃圾信息充斥其中,对待无尽的网络信息,怎样有效的管理,如何快速、准确地发现潜在有用的知识成为当前的研究热点。有效应对繁杂网页内容的一个重要方法就是将其分类,而目前文本仍然是网页的主要呈现形式,因此文本分类是解决该问题的核心,同时它也是有关搜索引擎,信息的检索与过滤的基础技术,广泛的适用性决定了对它研究的现实意义。Web中文文本分类是互联网技术与传统文本分类技术相

5、结合的产物,简单概述,它是利用已知类别Web中文文档学习出一个分类模型,继而确定未知文档类别的技术,整个过程包括预处理Web中文文本、选取特征词集、文本表示、计算词权值、样本分类等步骤。首先本论文在阐明Web中文分类关键技术的基础上,总结了研究的背景及现状,分析了研究的流程思路,做了很多理论和实现上的研究。理论方面,在综合分析总结了已有方法的不足之后,对分类过程中的一些环节进行了改进。针对Web下的特殊使用环境,提出了在特征选择之前,不同位置的文本,分区域、分步骤并赋予不同权重处理的思路;对于卡方统计只顾文档频率而没考虑词频,本类出现

6、少而非本类中普遍存在时极有可能被选为特征词以及自身公式中均匀分布纠正惩罚能力不够等情况,提出了词频补偿因子、类别比重因子、类内分布因子的概念,将它们乘在传统方法的公式后面作为补偿来对原方法加以改进,取得了良好的效果;在分类算法方面,重点研究了KNN算法,在深入分析其原理后总结出了优缺点。针对KNN算法采用内积公式计算文本相似度比较粗糙的情况(文中已举例说明),给出了一种利用相似接近系数进行完善的方法。通过设计相关试验证明,以上改进后的措施在准确率、召回率、F1值等方面都有不同程度的提高。实现方面,本文设计了用于Web中文文本分类试验的

7、小工具软件,包括用于建立样本库的Web网页采集模块,用于处理文本和分类过程的分类模块,用于评估对比最终结果的评估模块。并提供了设计的主要方案和用到的一些关键技术。关键词:Web中文文本,卡方统计,特征选取,KNN分类算法,文本分类I万方数据武汉理工大学硕士学位论文AbstractUnderthebackgroundofthiseraofinformationtechnology,therapiddevelopmentofWebandpopularizationoftheinternetbroughtaboutmuchconvenien

8、ceforourdailylifeandwork,andtheinternethasbecomethemainsourcetoacquireinformation.However,alotofuselessinforma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。