欢迎来到天天文库
浏览记录
ID:479704
大小:463.00 KB
页数:26页
时间:2017-08-09
《【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、(20届) 本科毕业论文文本表示模型的研究与实现22摘要:随着信息技术的不断发展,特别是Internet应用的普及,电子文本信息急剧增加。如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今信息技术领域的一大挑战。文本分类作为处理和组织大量文本数据的关键技术.可以在较大程度上解决信息杂乱的现象,方便用户准确地定位所需的信息。本文分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集
2、确定向量的特征提取维数,并提出一种“平均值”匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法。文本分类技术在生活中起着越来越重要的作用,成为信息检索领域中最前沿的研究热点之一。关键词:向量空间模型;文本分类;特征抽取算法;特征抽取22TextRepresentationModelResearchandImplementationAbstract:Withthecontinuousdevelopmentofinformationtechnology,especiallythepopularizationofIn
3、ternetapplications,electronictextmessagehasincreaseddramatically.Itisabigchallengeincurrentinformationtechnologyofhowtoorganizeandmanagethesehugeamountsofinformationeffectively,andcanbequicklyandaccuratelyacquiretheinformationofuserneed.Textclassificationasakey
4、technologyaboutprocessandorganizetextdata.Itcansolvedisorderlyphenomenon,andconvenientinformationusertoaccuratelypositiontherequiredinformation.Thispaperanalyzesthekeyautomatictextcategorizationtheoryandtechnology,givenarealizedbasedonvectorspacemodel(theVSM)au
5、tomatictextcategorizationframework,thesystemweredescribedemphaticallyalgorithm.Thisalgorithmintrainingphasethroughpartoftrainingsetssurevectorfeatureextractiondimension,andputsforwardakindof"average"matchingthresholdadjustmentmethod,thusintheaccuracyandefficien
6、cyofclassificationalgorithmissuperiortotraditional.Textclassificationtechnologyinlifeplaysamoreimportantroleinourlife,becomeoneofcutting-edgeresearchhotspot.Keywords:Vectorspacemodel;Textclassification;Featureextractionalgorithms;Featureextraction22目录1绪论21.1课题背
7、景21.2文本分类的定义21.3文本分类技术的分类21.4.文本分类在国内外的发展及现状32基于向量空间的文本分类技术52.1文本表示52.2向量空间模型52.3特征项的抽取62.4文本分类算法72.4.1类中心分类法72.4.2贝叶斯算法82.4.3KNN(K最邻近)算法82.4.4支持向量机法92.4.5其它分类算法92.5 阈值的确定103系统的结构框架113.1结构框架113.2系统测试123.2.1主界面123.2.2训练过程133.2.3分类过程153.3系统实现及运行环境204总结22参考文献23致谢2
8、4221绪论1.1课题背景Internet已被公认为是20世纪末人类科技史的里程碑,它作为一个开放的、分布式的信息空间,近年来得到了飞速发展。随着Internet上信息量爆炸性的增长,人们很难从大量的信息中迅速有效地提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助,那将能够极大地改善
此文档下载收益归作者所有