中文网页热门主题获取系统的研究与实现

中文网页热门主题获取系统的研究与实现

ID:33124826

大小:1.83 MB

页数:52页

时间:2019-02-20

中文网页热门主题获取系统的研究与实现_第1页
中文网页热门主题获取系统的研究与实现_第2页
中文网页热门主题获取系统的研究与实现_第3页
中文网页热门主题获取系统的研究与实现_第4页
中文网页热门主题获取系统的研究与实现_第5页
资源描述:

《中文网页热门主题获取系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河北大学硕士学位论文中文网页热门主题获取系统的研究与实现姓名:郝丽维申请学位级别:硕士专业:计算机应用技术指导教师:徐建民;王煜20090601摘要摘要互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具有重要意义。论文针对互联网舆情信息挖掘技术进行研究,具体包括:(1)网页信息采集技术:论文分析了网络传输过程中的协议类型和网页结构,通过对获得的IP数据包进行过滤,实现对网页标题的截取。(2)中文分词技术:针对网页标题的结构特点,论文采用基

2、于名词的分词方法,将分词结果表示成数字序列的形式,以提高处理速度,减少算法的内存开销。(3)数据流频繁项集挖掘技术:根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW。FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。结合以上的研究,实现了中文网页热门主题获取系统,包括获取网页主题模块、中文分词模块和统计频繁主题模块。实验表明,系统能够发现网络数据流中的热门主题。另外,在对系统进行测试的过程中,发现并分析了系

3、统参数对系统性能的影响,为提高系统性能提供了依据。关键词网络舆情数据流挖掘频繁项集滑动窗口中文分词AbstractWiththerapiddevelopmentofinteracttechnology,thenetworkhasbecomet11emaportantplatformtoexpresspublicopinion.Tomaintainsocialstabilityandhanllonious.thequestionarisingforrelevantgovernmentdepartmentsishowtofindouthotspotsin

4、timea11dhowtocorrectlyleadthepublicopinion.So,itisofgreatsignificancetostudythenetDublicopinion.Thethesisfocusesontheinteractpublicopinionminingtechniques.OurworkisaSfollow:(1)Webpageinformationcollecting:Thisthesisstudiesthehypertexttransferprotoc01andthehypertextmarkuplanguag

5、eintheprocessofnetwork仃ansmission,andfulfillstheextractionofthewebpage。triesbyfilteringtheIPpackets.(2)Chinesewordsegment:Inthispaper,throughresearchonthechafacteristicsofwebpagestructure,weuseaChinesewordsegmentbasedonnoun,andexpresstheresultaStheformofdigitalsequencesSOastoea

6、rnhighefficiencyandlowmemorvcosts.(3)Frequentitemsetsminingoverthedatastreams:Accordingtothefeaturesofmedatas仃e锄swhichislimitlessandmobility,analgorithmcalledFIM.SWisproposedtom址the1jrequentitemsetsovertheslidingwindow.Theverticaldatabaserepresentationisadoptedintheproposedalgo

7、rithm,eachitemisrepresentedbybitvector,andtheAp,/o,.ipropertyisu8edtogetfrequentitemsets.Theexperimentalresultsshowthatitimprovestheefficiencvforminingobservably.Basedonthosestudiesabove,weimplementahottopicofChinesewebpageretrievingsystem,whichincludesmodulesforwebpagetopiccol

8、lecting,ChineseWOrdsegment.andhottopiccounting.Theexpe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。