欢迎来到天天文库
浏览记录
ID:26732304
大小:1.34 MB
页数:83页
时间:2018-11-28
《web文本自动分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、华中科技大学硕士学位论文Web文本自动分类技术研究姓名:崔得暄申请学位级别:硕士专业:计算机软件与理论指导教师:卢炎生20060430摘要作为从万维网上海量的文本信息资源中发现潜在的有价值知识的一种有效技术,Web文本挖掘正方兴未艾。Web文本分类研究是Web文本挖掘中的一个研究热点。在Web文本分类中,通过更好地体现Web文本数据的特性可以提高机器学习领域中通用分类算法的性能,因此很有必要研究如何更好地将通用的机器学习算法同Web文本数据相结合的方法。在垃圾邮件过滤这个文本分类的重要应用中,必须考虑不同类别的文档被错误分类而导致的不同损失,为此定义了一个损失函数,结合贝叶斯
2、定理,将邮件表示为布尔型向量并用信息增益公式进行特征筛选,给出了一种基于最小损失的垃圾邮件过滤方法。在公共垃圾邮件数据集PU1上进行了试验,试验结果验证了定义损失函数的有效性。为了更充分地体现文档的内在特性,把Web文本表示成以单词为最小元素的序列,考虑特征间的相互位置关系隐含的丰富语义信息,将计算生物学中DNA序列分析问题的一种解决方法应用到文本分类中,使用特征序列来描述一个类别的内在特征,给出了一种文本分类方法SSAM。在Reuters-21578数据集上进行了试验,结果显示SSAM的分类效果优于传统的贝叶斯方法,且具有较快的分类速度。基于SSAM分类方法,将Web文本分
3、类过程划分为创建数据集、Web网页预处理、训练学习和实际分类等步骤,设计出一个可处理中文文本的Web文本自动分类系统,并用VisualC#在PC机上实现了系统的原型。关键字:文本分类,向量空间模型,最小损失,朴素贝叶斯,特征序列分析IAbstractAsaneffectivetechniquetodiscoverpotentiallyvaluableknowledgethroughthemassivetextinformationresourcesintheWWW,WebTextMiningisinitsascendant.WebTextClassificationisaho
4、tspotinthefieldofWebTextMining.Theperformancesofgenericclassifyingalgorithmsinmachinelearningcanbeimprovedbymakingbetteruseofthecharacteristicsofwebtextdata,soit'snecessarytostudysomebettermethodsofcombininggenericclassifyingalgorithmswithwebtextdata.Asanimportantapplianceoftextclassifying,
5、ajunkmailfilteringsystemmustconsiderdifferentimpactsofmisclassifyingdifferentclassifications.AfterdefiningalossfunctionandcombiningitwithBayestheorem,aminimallossbasedfilteringmethodisdesigned,whichrepresentsamailasaBooleanvectorandselectsfeatureswithIG.TheexperimentalresultsonPU1verifythee
6、fficiencyofdefiningsuchalossfunction.Tomakefulluseofthecharacteristicsofwebdocuments,awebtextisrepresentedassequences,inwhichaminimalelementisaword,inordertoconsidertherichsemanticinformationimpliedbythemutualpositionsamongterms.AsolutiontoDNAsequenceanalysisproblemsincomputationalbiologyis
7、appliedtotextclassificationtoimplementatextclassifyingmethodscalledSSAM,whichusessignaturesequencestodescribethecharacteristicsofclassifications.TheexperimentalresultsonReuters-21578indicateSSAMbehavesbetterthanNaïveBayes,andithasahighclassifyingspeed.Th
此文档下载收益归作者所有