基于统计的web网页分类算法研究

ID：35179375

大小：3.34 MB

页数：62页

时间：2019-03-20

资源描述：

《基于统计的web网页分类算法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、．一．＇女去＇心六＇熱＇．＿－、．＊、一Ｖ芦．Ｖ一，Ｖ．、．．公．．、．件Ｖ．毛，苗＇■＇■．Ｖ－－，＿，，，．分类号密级ｉ．中国地质大学（化京）飞硕去学位论文，．ｎ＇Ｉ■．＾ｖ＼．基于统计的Ｗｅｂ网巧分■？．ｔ．．．．．类算法研究＇ｙｒ学号：２１０４１３０００４节Ｖ研究生：孟庆飞—＇，一，．．、、１為，：．，邱；片１户？：义业专：电子与通信工程－！■；－ｉ？多－－―：：八：．巧食研究方向；信号采集

2、与信息处理措导教师：傅平副教授企业教师；潘季明２０１６年５月声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知，除了文中特别加Ｗ标注和致谢的地方外，论文中不包含其他人己经发表或撰写过的研巧成果，也不包含为获得中国地质大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。。夸、七Ｂ期２女、签名＝主：伤关于ｉ仑文使用授权的说明目本人完全了解中国地质大学有关保留、使用学位论文的规定，Ｐ：学校有权保留送交论文的复印件，允

3、许论文被查阅和借阅；学校可Ｗ公布论文的全部或部分内容，可采用影印、缩印或其他复制手段保存论文。□公开□保密（年）｛保密的论文在解密后应遵守此规定）＂签知主《节＿导师签名：［泉曰期：千｝ADissertationSubmittedtoChinaUniversityofGeosciencesforMasterDegreeResearchonWebpageclassificationAlgorithmbasedonStatisticsMasterCandidate:MengQingfeiMajor:ElectromicsandCommunicatio

4、nEngineeringStudyOrientation:SignalAcquisitionandInformationProcessingDissertationSupervisor:Prof.FuPingBusinessMentor:PanJimingChinaUniversityofGeosciences(Beijing)摘要随着计算机和网络信息技术的发展，特别是互联网的广泛应用，使得Web上的信息资源得到了快速发展，网页中包含的内容越来越复杂，越来越丰富。怎样对Web网页进行系统分类，并从海量的数据中获得用户想得到的精确信息成为研究者们研究的重点课题。Web网页分

5、类是互联网信息分类及大数据领域的一种重要方法，主要用于对互联网海量的网页进行归类，方便人们对需求信息进行搜集。传统文本分类技术应用于诸多领域，主要用于自然语言处理、内容过滤、信息搜集。文本分类技术在二十世纪九十年代开始成熟，它主要根据训练语料生成训练模型，然后对未知文档进行分类，确定未知文档的所属类别。Web网页内容是以动态形式展现信息资源的，它的组织结构是半结构化或结构化，然而信息内容中80%以上的信息是中文文本构成的，如果采用传统文本分类算法对Web网页进行分类，就需要对先Web网页进行URL爬虫，得到带有HTML标签的Web文件，去除网页的HTML标签，生成传统格式

6、的文本，然后对传统的文本分类。自文本分类技术发展至今，学者对文本分类技术做了很多深入的研究，比如分词技术，特征提取技术，文本分类技术，每种技术已经到了很成熟的地步。然而在特征提取的过程中，人们对特征提取得到的特征词以及如何对其设置权重这样的问题研究不是特别深入。基于文本分类研究现状，本文主要以实验的方式研究信息增益特征提取算法与ITC权重算法结合进行分类的课题，并对现有ITC权重算法做修正改进，进一步提高了分类的准确率。本文的另一个工作是实现了Web网页分类系统，并将分类结果应用于防火墙系统，实现了URL过滤模块。为防火墙URL过滤技术保证了准确率，支持防火墙的更新升级。

7、关键词:Web网页分类，爬虫，ITC权重算法，特征提取，URL过滤1AbstractWiththedevelopmentofcomputerandnetworkinformationtechnologyespeciallywideapplicationofinternet，theinformationresourceonWebdevelopsrapidly,thecontentofwebpageismoreandmorecomplicatedandabundant.HowtosystemicallyclassifyWebpag

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 62



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于统计的web网页分类算法研究

基于统计的web网页分类算法研究

相关文章

相关标签