欢迎来到天天文库
浏览记录
ID:33568950
大小:3.94 MB
页数:71页
时间:2019-02-27
《基于重构变异算子遗传算法的文本信息过滤研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391密级基于重构变异算子遗传算法的文本信息过滤研究研究生姓名:唐伟指导教师姓名、职称:刘丰年副教授学科专业:计算机应用技术研究方向:自然语言处理湖南工业大学二○一四年五月二十八日万方数据二○一四年五月二十八日万方数据万方数据摘要随着互联网技术的飞速发展,网络信息呈现出几何倍增的趋势。海量信息在给人们生活带来便利的同时,也导致了一系列问题:如数据的检索和查找变得更复杂;垃圾短信、不良信息的识别、过滤以及屏蔽变得更难实现等。信息过滤(InformationFiltering,IF)技术在面对复杂的网络环境中应运而生。通过对网页中无关、不良信息的过滤,使用户能更快速
2、、准确的得到所需信息,从而提高信息搜索的效率和准确率。本文在提出纯度基尼指数的基础上,对文本预处理算法进行研究,并提出了重构变异算子遗传算法。结合纯度基尼指数在文本信息预处理中的应用,将重构变异算子遗传算法应用于文本信息过滤,提高了文本信息过滤中用户类别模板的过滤精度。取得的主要成果有:1.提出了基于纯度原理基尼指数的文本特征选择方法文本信息预处理是文本信息过滤前期的准备工作,文本的特征选择是信息预处理的关键,特征选择的目的是选出最能代表文档特征的特征词作为特征空间维数。本文针对于传统基尼指数在文本信息预处理上的缺点进行了改进,并将其应用于文本的特征选择中,降低了原始文本
3、的空间维数、减小了时间复杂度,提高了分类器的分类精度。2.基于重构变异算子遗传算法的提出并应用于文本信息过滤重构变异算子遗传算法用来平衡交叉算子与变异算子的地位,进而优化用户模板。对四个类别进行过滤精度对比实验,结果表明:基于重构变异算子遗传算法能更好地应用于文本信息过滤。最后设计并实现了基于重构变异算子遗传算法的互联网文本信息过滤系统,它能准确、快速地在海量信息中找到所需信息,提高互联网文本信息过滤的精度和效率。关键字:信息过滤,纯度基尼指数,文本信息预处理,重构变异算子遗传算法I万方数据ABSTRACTWiththerapiddevelopmentofInternet
4、technology,networkinformationshowsgeometricmultiplicationtrend.Alargeamountofinformationbringsconveniencetopeople'slives.Atthesametime,butalsoledtoaseriesofquestions:Itisdifficulttoscreenandfilterthespammessagesandbadinformation.Informationfilteringtechnology(InformationFiltering,abbrevia
5、tedIF)whichcanshieldtheuselessorunhealthyinformationandhelpcustomertoreceiveinformationquicklyandaccuratelyiscoming.Thusitcanimprovetheefficiencyandaccuracyoftheinformationsearch.OnthebasisoftheproposedpurityGiniindex,thetextstudiesthepreprocessingalgorithmandproposesreconstructionmutatio
6、noperatorofgeneticalgorithm..CombinedtheapplicationofthepurityGiniindexinthetextmessagepreprocessing,applyingthegeneticalgorithmofthereconstructionofmutationoperatorinthetextmessagefilteringtoimprovetheaccuracyoftemplateusercategoryinthetextinformationfiltering.Themainachievementsasfollow
7、s:1.ProposedtextpreprocessingalgorithmbasedonthepurityoftheGiniindexThepreparatoryworkofatextmessagefilterispreprocessingtextmessage,thekeyisthetextfeatureselection,thepurposeoffeatureselectionistoselectthemostrepresentativeofthedocumentfeaturewordasadimensionoffeat
此文档下载收益归作者所有