欢迎来到天天文库
浏览记录
ID:35128385
大小:1.67 MB
页数:61页
时间:2019-03-19
《试析基于web的文本挖掘技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、哈尔滨工程大学硕士学位论文基于Web的文本挖掘技术的研究姓名:刘岩申请学位级别:硕士专业:计算机应用技术指导教师:张健沛20040101摘要如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确面全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的
2、讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括:首先,探讨了Web挖掘的有关理论;其次,在研究Web文本挖掘技术的基础上,介绍了一种Web文本挖掘系统的体系结构;再次,具体讨论了Web信息的自动获取的总体设计思想,并对获取信息的预处理工作进行了研究:第四,为了将遗传算法应用到本文设计的算法中,对遗传算法进行了详尽的分析;最后,在对传统的遗传算法进行改进后,提出了一种基于遗传算法的特征提取算法。实验表明,该方法
3、是可行的。关键字:Web挖掘;文本挖掘:特征提取;遗传算法AbstractIt’SarealchallengeforUStomaketheInterneteasiertouse.TheinformationintheInternetiSinshortoforganization,andfullofamassofpages,andontheotherside,peoplewanttoobtaintheinformationquicklyandaccurately。Withthefloodofinformationonthe
4、Web,WebminingiSanewresearchissuewhichdrawsgreatinterestfrommanycommunities.Currently,thereiSnoagreementaboutWebminingyet.Itneedsmorediseussionamongscientistsinordertodefinewhatitisexactly.Meanwhile,thedevelopmentofWebminingsystemwillpromoteitsresearchinturn.Thisp
5、aperdiscussestheprincipleofWebmining,andfocusesonWebtextminingarchitectureandtechnique.Thepaperincludesfollowingcontents:Firstly,discussestheprincipleofWebmining:Secondly,onthebaseofthestudyoftheWebtextminingtechnique,introduceanarchitectureandfunctionofWebtextmi
6、ningsystem:Thirdly,discussesthedesignphilosophyofdataacquisitionbasedonworldwildweb.andstudiesthepreprocessingoftheWebdata;FourthlyinordertoapplytheGeneticAlgorithmtothetheoryputforwardbyUS,analysestheGeneticA190rithmparticularly:Atlast,onthebaseoftheimprovemento
7、fconventionalGenetiCAlgorithm,weputforwardadocumentfeatureextractalgorithm.Theresultofexperimentshows,theapproachiSfeasible.Keyword:WebMining;TextMining;FeatureExtract:Genetic.Algorithm哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参
8、考文献相对应。除文中己注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):日期:年月日第1章绪论1.1研究课题的来源、目的和意义本课题来源于黑龙江省自然科学基金项目,即“基于We
此文档下载收益归作者所有