欢迎来到天天文库
浏览记录
ID:44216278
大小:2.34 MB
页数:81页
时间:2019-10-19
《文本分类技术的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、摘要摘耍文木分类是文木挖掘的重耍分支,在当今的信息时代文木口动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段,已经被应用于抽取符号知识、新闻分发、排序电子邮件、学习用户兴趣以及信息过滤等许多方面。首先,本文着重介绍了口动文本分类技术中常用的基于向量空间模型的特征选取方法和分类模型。基于对这些技术的分析,木文提出了一种基于正负权重的M1分类方法,该方法采用MI特征选取方法以局部特征选取方式进行特征选取,每一个类别得到不同的特征子集,并利川得到的特征互信息值构造特征的正、负权重并形成类别的正、负原型向量。这种方法训练效率高,实验结果也表明该方法也有比较
2、好的分类性能。另外,利用门动文本分类系统中已经实现了多种分类模型的特点,本文对多分类器的组合问题进行了研究,并实现了利用贝叶斯理论进行组合的多分类器,将Z应用于口动文木分类。从实验结果来看,这种多分类器在一定程度上能提高分类的准确率和召回率。最后,阐述了Ont010gy对文木分类的重耍作用,介绍了Ont010gy在文木分类中的一些应用。而对当前针对某个特定领域的Onto1ogy缺乏,而且领域0nto1ogy必须依赖领域专家指导靠手动建立的现状,本文对0nto1ogy的自动构建技术进行了研究,并且实现了一个0nto1ogy自动构建系统ontoAGso本文对自动构建的完整过
3、程进行了介绍。关键字文本分类;特征选取;Omo1ogyAbstractTexthasantcatcg0r•1zat•1on•1saanagcmcnIandhasbeenapP1•ednow1edge•1nf0rmat•10npr0cesg9ands00n•F•rst0fa11thet•1onmeth0dsandcateg0raceM0de1)m0de1■0nthebas•s0orward1sht1zftIds,esisintroducesthationmodels,whicheanalysisofthesextratechnoionfiItrfeaturenVSM(Ve
4、canewtextcategorizationmcthodwhichisbascdonMI(mutua1information)featureselection.Theexperimentsprovedthatthismethodworksfair1yBesides,amu1ti一classifierisimp1ementedbycombiningNa/veBayesclassifierandSimpleVSHelassifier・ThecombinationisbasedonBayestheory・Asweknow.SemanticWebisthenextgenera
5、tionwebandOnto1ogyisoneimportant1ayerintheSemanticWebarchitecture・SoinanticWebandontologycanprovidetextcategorizationwithpowerfulseinanticsupport・Facingthesituationthatthereislackofdomainontologyandconstructingdomainonto1ogymanua11yisverytime—consuming,wetrytoconsLrucLap1atformofautomaIi
6、contologyconstrucLion・Keywords:textcategorization,featureselection,onto1ogy独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文屮特另1JJjtI以标注和致谢的地方外,论文屮不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业人学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对木研究所做的任何贡献均已在论文屮作了明确的说明并表示了谢意。签名H期:严终砂X、子关于论文使用授权的说明木人完全了解北京工业人学有关保留、使用学位论文的规
7、定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩卬或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)第1章绪论1・1研究背景人类的二十一世纪已经被深深地打上了“信息,啲烙卬。在八十隹代后期以前,由于人类加工信息的速度缓慢、储存信息的能力低下、输送信息迟缓,信息的可用性很低。近二十年來,加工信息的能力已经有了大幅度的提高(例如,1985年全世界只有儿十万台中央处理机和不多儿台Pc机,而仅仅在1995年PC机达到了两亿多台);同时,人量信息的数字化已成为可能,信息存储能力已
此文档下载收益归作者所有