【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现

【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现

ID:479704

大小:463.00 KB

页数:26页

时间:2017-08-09

【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现_第1页
【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现_第2页
【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现_第3页
【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现_第4页
【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现_第5页
资源描述:

《【计算机科学与技术专业】【毕业设计】文本表示模型的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、(20届) 本科毕业论文文本表示模型的研究与实现22摘要:随着信息技术的不断发展,特别是Internet应用的普及,电子文本信息急剧增加。如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今信息技术领域的一大挑战。文本分类作为处理和组织大量文本数据的关键技术.可以在较大程度上解决信息杂乱的现象,方便用户准确地定位所需的信息。本文分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集

2、确定向量的特征提取维数,并提出一种“平均值”匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法。文本分类技术在生活中起着越来越重要的作用,成为信息检索领域中最前沿的研究热点之一。关键词:向量空间模型;文本分类;特征抽取算法;特征抽取22TextRepresentationModelResearchandImplementationAbstract:Withthecontinuousdevelopmentofinformationtechnology,especiallythepopularizationofIn

3、ternetapplications,electronictextmessagehasincreaseddramatically.Itisabigchallengeincurrentinformationtechnologyofhowtoorganizeandmanagethesehugeamountsofinformationeffectively,andcanbequicklyandaccuratelyacquiretheinformationofuserneed.Textclassificationasakey

4、technologyaboutprocessandorganizetextdata.Itcansolvedisorderlyphenomenon,andconvenientinformationusertoaccuratelypositiontherequiredinformation.Thispaperanalyzesthekeyautomatictextcategorizationtheoryandtechnology,givenarealizedbasedonvectorspacemodel(theVSM)au

5、tomatictextcategorizationframework,thesystemweredescribedemphaticallyalgorithm.Thisalgorithmintrainingphasethroughpartoftrainingsetssurevectorfeatureextractiondimension,andputsforwardakindof"average"matchingthresholdadjustmentmethod,thusintheaccuracyandefficien

6、cyofclassificationalgorithmissuperiortotraditional.Textclassificationtechnologyinlifeplaysamoreimportantroleinourlife,becomeoneofcutting-edgeresearchhotspot.Keywords:Vectorspacemodel;Textclassification;Featureextractionalgorithms;Featureextraction22目录1绪论21.1课题背

7、景21.2文本分类的定义21.3文本分类技术的分类21.4.文本分类在国内外的发展及现状32基于向量空间的文本分类技术52.1文本表示52.2向量空间模型52.3特征项的抽取62.4文本分类算法72.4.1类中心分类法72.4.2贝叶斯算法82.4.3KNN(K最邻近)算法82.4.4支持向量机法92.4.5其它分类算法92.5 阈值的确定103系统的结构框架113.1结构框架113.2系统测试123.2.1主界面123.2.2训练过程133.2.3分类过程153.3系统实现及运行环境204总结22参考文献23致谢2

8、4221绪论1.1课题背景Internet已被公认为是20世纪末人类科技史的里程碑,它作为一个开放的、分布式的信息空间,近年来得到了飞速发展。随着Internet上信息量爆炸性的增长,人们很难从大量的信息中迅速有效地提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助,那将能够极大地改善

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。