欢迎来到天天文库
浏览记录
ID:36685810
大小:3.33 MB
页数:67页
时间:2019-05-13
《网页特征词典生成模型的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:保密期限:姥右却童火警硕士研究生学位论文学姓专导学号2105566名:割俭业:值息塞全师:友勇院:让篡扭堂院2012年12月25日f懒嬲必独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任,本人签名:型
2、l缉!日期:如£主.≥.!i关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文.(保密的学位论文在解密后遵守此规定)本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:日期:坐£墨:;::三日期:—■业j粤—一二北京邮电大学硕士学位论文网页特征词典生成模型的设计与实现摘
3、要随着WWW技术的不断发展,互联网成为人们发布和搜索信息的主要来源,网络上存在的信息也越来越多,五花八门。面对庞大的信息,人们希望从网上获得的信息更精确更快速,更加关注某一领域的动态。同时青少年的上网行为日渐普遍,他们对不良网站没有准确的辨别力,对游戏网站没有坚定的抵抗力,为了避免青少年受到负面信息的影响,需要为他们提供一个健康的上网环境。因此当前社会需要的是快速搜索所需资源,准确过滤特定主题的网页,营造一个绿色高效的互联网环境。网页分类技术的出现使得网页被准确归类,主题搜索更加容易便捷,也可以根据用户需求屏蔽掉特定类型的网页内容,因此成为网络海
4、量信息挖掘中的研究热点。,网页分类流程包括网页内容爬取、文本预处理、网页特征词典表示、分类器训练四个部分,最终形成网页自动分类模型。但是前提条件是保证特征词典能够精确完整地表示网页类型的特点,不会与其他类型混合。因此本文提出了一种网页特征词典生成模型。本论文做了以下工作:1.对网页自动分类技术进行了综述,介绍了网页自动分类的流程以及主流的分类算法:2.对网络爬虫技术和中文分词技术进行了研究,着重研究了常用的爬虫方法和几种爬行策略,中文分词技术的常用方法以及歧义消解难题,未登录词和停用词的作用及管理方式,还介绍了几种常用的开源分词项目和相关工具;‘
5、3.对网页特征词典生成模型进行了整体分析,从体系结构出发结合项目需求将模型分为两大模块六小模块(爬虫模块的URL管理子模块、页面爬取子模块、信息过滤子模块,分词模块的分词前处理子模块、中文分词子模块、特征词计算子模块),对每个子模块进行了具体的分析;4.对每个子模块进行了详细设计与实现,着重设计了页面爬取子模块和中文分词子模块,给出了各个子模块的部分代码实现;北京邮电大学硕士学位论文5.最后对网页特征词典生成模型进行了测试,生成了汽车主题的网页特征词典,使用不同分类的网页特征词对词典进行比较分析,得到的结果显示模型的设计是合理的。本文设计的模型适
6、用于网页自动分类系统、搜索引擎系统等应用中,有着广泛的后续研究价值。关键词:网页特征词网络爬虫文本预处理中文分词¨北京邮电大学硕士学位论文DESIGNANDIMPLEMENTATIoNoFTHEWEBFEATUREDICTIoNARYGENERATEDMoDELABSTRACTTheInternethasbecomethemainsourcetospreadandsearchinformationwiththedevelopmentoftheⅥ删叭Ⅳ’Stechnology.Peoplehopethattheycangetinformationf
7、aster,accurateandproficient.TheyoungsurfingtheInternetcannotdistinguishblacksites,orareeasilyaddictedintogames.Itisnecessarytocreateahealthywebthatcansearchwebpagesquicklyandfilterspecifiedsitesavoidingtheyounggettingbadinformation..晰thwebclassificationCallclassifywebaccurate
8、ly,searchtopiceasily,andmaskspecificsites,itbecomeshotresearchinmass
此文档下载收益归作者所有