试论中文网页分类技术的研究与实现

试论中文网页分类技术的研究与实现

ID:35146372

大小:3.67 MB

页数:72页

时间:2019-03-20

试论中文网页分类技术的研究与实现_第1页
试论中文网页分类技术的研究与实现_第2页
试论中文网页分类技术的研究与实现_第3页
试论中文网页分类技术的研究与实现_第4页
试论中文网页分类技术的研究与实现_第5页
资源描述:

《试论中文网页分类技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南交通大学硕士学位论文中文网页分类技术的研究与实现姓名:朱菊花申请学位级别:硕士专业:计算机应用技术指导教师:楼新远20080301西南交通大学硕士研究生学位论文第1页摘要随着网络和信息技术的迅速发展,特别是Internet的普及,网络信息资源已极为丰富。文本分类将杂乱无章的信息整合起来,方便用户快捷地定位感兴趣的信息,是目前研究的重要课题。本文对中文网页分类的主要技术,包括预处理、特征提取、分类算法等方面进行了深入的分析和研究。首先,针对网页表达形式的特点,将网页噪声分成局部噪声和全局噪声两类,分别给出了两种噪声的去噪方法,并实现了~种基于HTMLParser的网页预处理过程。

2、其次,针对中文网页的特性,对中文分词做了深入的分析,实现了一种基于词典的分词系统,该系统将分词词典按照相同的第一个字分成不同的小词典,在各个小词典内部,利用二分查找方法,有效的提高了分词速度。第三,TFIDF特征选取和文本表示没有考虑特征项在各类之间和各个类的内部的分布情况对类的区分度的影响,针对这一缺点,本文采用一种在TFIDF基础上增加两个方差来调节TFIDF权重的改进方案。最后,比较了几种传统的文本分类算法的优劣,总结了现有的几种改进方案,并给出了一个基于中心向量的距离加权kNN分类的改进方法。该方法先根据中心向量淘汰离类的中心较远的样本,减小这些样本对类中心的影响,然后考虑

3、到类中心距离不同的样本对类的作用不同,在计算属于各个类的文本的余弦值时增加一个权值。实验表明该方法比kNN法效果更好。经实验表明,本文所做研究的内容,有利于分类器的性能的改进,达到了一定的预期效果。关键词自动分类;中文分词;特征提取;TFIDF西南交通大学硕士研究生学位论文Abstract第1I页Asthedevelopmentofnetworkandcommunicationtechnique,especiallytheprevalenceoftheInternet,theinformationresourceisveryenrichment.Automatictextcateg

4、orization,asamethodofmakingthedisorderandunsystematicinformationconform,isanimportanttopicfordiscussionatpresent.ThispapergoesdeepintoanalyzingandstudyingthekeytechnologiesoftheChinesewebpagecategorization,includingwebpretreatment,featureextraction,categorizationmethodandSOon.Firstly,theChines

5、ewebpages’noisesaresortedintotwoclassesaccordingtoitsrepresentationcharacteristics.Thepaperprovidesmethodsseparatelytodealw.iththetwodifferentnoises,andrealizesapreprocessingbasedonHTMLParserofChinesewebpages.Secondly,thispaperstudiestheChinesewordsegmenttechnologyin-depthasChinesewebpagesalew

6、ritteninChinese.Then,thepaperhascomeupwithawordsegmentsystemwhichisbasedontheworddictionary.Inthesystem,theworddictionaryisdividedintomanysmallerdictionariesaccordingtothefirstword.AsweusebinarysearchwithinthosedictionariesithaseffectivelyimprovedthespeedofChinesewordsegment.Thirdly,animproved

7、schemeonTFIDFbased011itslimitationsonthefeatureextractionandpaperexpressionisintroduced.TFIDFignoreshowthedistributionoftheterminnerandexterntheclasseseffectsthedistinguishdegreeoftheclasses.TheschemeaddstwovariancestoadjusttheweightofT

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。