基于主题的网页文本分类技术

基于主题的网页文本分类技术

ID:19619088

大小:837.00 KB

页数:32页

时间:2018-10-04

基于主题的网页文本分类技术_第1页
基于主题的网页文本分类技术_第2页
基于主题的网页文本分类技术_第3页
基于主题的网页文本分类技术_第4页
基于主题的网页文本分类技术_第5页
资源描述:

《基于主题的网页文本分类技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、北京联合大学毕业设计摘要随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正广泛应用于搜索引擎、站点结构分析、页面有效性分析、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本项目面向互联网中存在的海量教育资源,对Web上满足特定主题的信息的有效采集进行研究。基于主题的Web教育资源采集技术的

2、研究主要有三个研究内容:本体构建技术研究、主题爬虫技术研究以及网页文本分类技术研究。网页文本分类技术被广泛应用到搜索引擎中,本文对文本分类技术进行研究,介绍文本分类的基本过程,论述文本预处理、分词以及特征提取方法,讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法,探讨网页文本分类技术。采用支持向量机技术,设计并实现了一个开放的基于主题的网页文本分类系统。实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和查全率。关键词:主题,分词,向量空间模型,文本分类,支持向量机IV北京联合大学毕业设计Abstra

3、ctWiththerapidexpansionofinformationontheWeb,theWeb-basedservicesaregraduallyflourished.Asthebasicandimportantcomponentoftheseinformationservices,Webinformationcollectionisbeingwidelyappliedtothesearchenginesitestructureanalysis,analysisoftheeffectivenessofthepage,the

4、userinterestinformationandpersonalizedaccesstotapavarietyofapplicationsandresearch.However,aspeopleofvariousinformationservicesrequireincreasinglyhigh,thetraditionalinformationcollectionbasedontheentireWebareincreasinglypowerless,itisunabletocollecttimelyinformationto

5、theWebenough,cannotmeetthegrowingindividualneeds.Tothisend,theprojectfacingmassiveeducationalresourcesontheInternetthatexistontheWebtomeetthespecifictopicofthecollectionofinformationoneffectiveresearch.ResearchtopicsofWeb-basededucationalresourceacquisitiontechnologyt

6、hreemainresearchcontents:ontologyconstructiontechnologyresearch,technology,andresearchtopicsreptilespagetextclassificationtechnologyresearch.Webtextclassificationtechnologiesarewidelyappliedtothesearchengines,thispaperthebasicprocessoftextclassificationtechnologyresea

7、rch,introductorytextclassification,discussesthetextpre-processing,segmentationandfeatureextractionmethodsdiscussedNaiveBayes,Knearestneighbor,supportvectormachines,votingandothercommonlyusedtextclassificationprinciplesandmethodstoexplorepagetextclassificationtechnique

8、s.Usingsupportvectormachinetechnology,designandimplementationofaweb-basedopentopictextclassificationsystems.Experimentsshowt

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。