欢迎来到天天文库
浏览记录
ID:33124826
大小:1.83 MB
页数:52页
时间:2019-02-20
《中文网页热门主题获取系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、河北大学硕士学位论文中文网页热门主题获取系统的研究与实现姓名:郝丽维申请学位级别:硕士专业:计算机应用技术指导教师:徐建民;王煜20090601摘要摘要互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具有重要意义。论文针对互联网舆情信息挖掘技术进行研究,具体包括:(1)网页信息采集技术:论文分析了网络传输过程中的协议类型和网页结构,通过对获得的IP数据包进行过滤,实现对网页标题的截取。(2)中文分词技术:针对网页标题的结构特点,论文采用基
2、于名词的分词方法,将分词结果表示成数字序列的形式,以提高处理速度,减少算法的内存开销。(3)数据流频繁项集挖掘技术:根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW。FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。结合以上的研究,实现了中文网页热门主题获取系统,包括获取网页主题模块、中文分词模块和统计频繁主题模块。实验表明,系统能够发现网络数据流中的热门主题。另外,在对系统进行测试的过程中,发现并分析了系
3、统参数对系统性能的影响,为提高系统性能提供了依据。关键词网络舆情数据流挖掘频繁项集滑动窗口中文分词AbstractWiththerapiddevelopmentofinteracttechnology,thenetworkhasbecomet11emaportantplatformtoexpresspublicopinion.Tomaintainsocialstabilityandhanllonious.thequestionarisingforrelevantgovernmentdepartmentsishowtofindouthotspotsin
4、timea11dhowtocorrectlyleadthepublicopinion.So,itisofgreatsignificancetostudythenetDublicopinion.Thethesisfocusesontheinteractpublicopinionminingtechniques.OurworkisaSfollow:(1)Webpageinformationcollecting:Thisthesisstudiesthehypertexttransferprotoc01andthehypertextmarkuplanguag
5、eintheprocessofnetwork仃ansmission,andfulfillstheextractionofthewebpage。triesbyfilteringtheIPpackets.(2)Chinesewordsegment:Inthispaper,throughresearchonthechafacteristicsofwebpagestructure,weuseaChinesewordsegmentbasedonnoun,andexpresstheresultaStheformofdigitalsequencesSOastoea
6、rnhighefficiencyandlowmemorvcosts.(3)Frequentitemsetsminingoverthedatastreams:Accordingtothefeaturesofmedatas仃e锄swhichislimitlessandmobility,analgorithmcalledFIM.SWisproposedtom址the1jrequentitemsetsovertheslidingwindow.Theverticaldatabaserepresentationisadoptedintheproposedalgo
7、rithm,eachitemisrepresentedbybitvector,andtheAp,/o,.ipropertyisu8edtogetfrequentitemsets.Theexperimentalresultsshowthatitimprovestheefficiencvforminingobservably.Basedonthosestudiesabove,weimplementahottopicofChinesewebpageretrievingsystem,whichincludesmodulesforwebpagetopiccol
8、lecting,ChineseWOrdsegment.andhottopiccounting.Theexpe
此文档下载收益归作者所有