web文本自动分类技术研究

web文本自动分类技术研究

ID:26732304

大小:1.34 MB

页数:83页

时间:2018-11-28

web文本自动分类技术研究_第1页
web文本自动分类技术研究_第2页
web文本自动分类技术研究_第3页
web文本自动分类技术研究_第4页
web文本自动分类技术研究_第5页
资源描述:

《web文本自动分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华中科技大学硕士学位论文Web文本自动分类技术研究姓名:崔得暄申请学位级别:硕士专业:计算机软件与理论指导教师:卢炎生20060430摘要作为从万维网上海量的文本信息资源中发现潜在的有价值知识的一种有效技术,Web文本挖掘正方兴未艾。Web文本分类研究是Web文本挖掘中的一个研究热点。在Web文本分类中,通过更好地体现Web文本数据的特性可以提高机器学习领域中通用分类算法的性能,因此很有必要研究如何更好地将通用的机器学习算法同Web文本数据相结合的方法。在垃圾邮件过滤这个文本分类的重要应用中,必须考虑不同类别的文档被错误分类而导致的不同损失,为此定义了一个损失函数,结合贝叶斯

2、定理,将邮件表示为布尔型向量并用信息增益公式进行特征筛选,给出了一种基于最小损失的垃圾邮件过滤方法。在公共垃圾邮件数据集PU1上进行了试验,试验结果验证了定义损失函数的有效性。为了更充分地体现文档的内在特性,把Web文本表示成以单词为最小元素的序列,考虑特征间的相互位置关系隐含的丰富语义信息,将计算生物学中DNA序列分析问题的一种解决方法应用到文本分类中,使用特征序列来描述一个类别的内在特征,给出了一种文本分类方法SSAM。在Reuters-21578数据集上进行了试验,结果显示SSAM的分类效果优于传统的贝叶斯方法,且具有较快的分类速度。基于SSAM分类方法,将Web文本分

3、类过程划分为创建数据集、Web网页预处理、训练学习和实际分类等步骤,设计出一个可处理中文文本的Web文本自动分类系统,并用VisualC#在PC机上实现了系统的原型。关键字:文本分类,向量空间模型,最小损失,朴素贝叶斯,特征序列分析IAbstractAsaneffectivetechniquetodiscoverpotentiallyvaluableknowledgethroughthemassivetextinformationresourcesintheWWW,WebTextMiningisinitsascendant.WebTextClassificationisaho

4、tspotinthefieldofWebTextMining.Theperformancesofgenericclassifyingalgorithmsinmachinelearningcanbeimprovedbymakingbetteruseofthecharacteristicsofwebtextdata,soit'snecessarytostudysomebettermethodsofcombininggenericclassifyingalgorithmswithwebtextdata.Asanimportantapplianceoftextclassifying,

5、ajunkmailfilteringsystemmustconsiderdifferentimpactsofmisclassifyingdifferentclassifications.AfterdefiningalossfunctionandcombiningitwithBayestheorem,aminimallossbasedfilteringmethodisdesigned,whichrepresentsamailasaBooleanvectorandselectsfeatureswithIG.TheexperimentalresultsonPU1verifythee

6、fficiencyofdefiningsuchalossfunction.Tomakefulluseofthecharacteristicsofwebdocuments,awebtextisrepresentedassequences,inwhichaminimalelementisaword,inordertoconsidertherichsemanticinformationimpliedbythemutualpositionsamongterms.AsolutiontoDNAsequenceanalysisproblemsincomputationalbiologyis

7、appliedtotextclassificationtoimplementatextclassifyingmethodscalledSSAM,whichusessignaturesequencestodescribethecharacteristicsofclassifications.TheexperimentalresultsonReuters-21578indicateSSAMbehavesbetterthanNaïveBayes,andithasahighclassifyingspeed.Th

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。