欢迎来到天天文库
浏览记录
ID:35179375
大小:3.34 MB
页数:62页
时间:2019-03-20
《基于统计的web网页分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、.一.'女去'心六'熱'._-、.*、一V芦.V一,V.、..公..、.件V.毛,苗'■'■.V--,_,,,.分类号密级i.中国地质大学(化京)飞硕去学位论文,.n'I■.^v\.基于统计的Web网巧分■?.t.....类算法研究'yr学号:2104130004节V研究生:孟庆飞—',一,..、、1為,:.,邱;片1户?:义业专:电子与通信工程-!■;-i?多--―::八:.巧食研究方向;信号采集
2、与信息处理措导教师:傅平副教授企业教师;潘季明2016年5月声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研巧成果,也不包含为获得中国地质大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。。夸、七B期2女、签名=主:伤关于i仑文使用授权的说明目本人完全了解中国地质大学有关保留、使用学位论文的规定,P:学校有权保留送交论文的复印件,允
3、许论文被查阅和借阅;学校可W公布论文的全部或部分内容,可采用影印、缩印或其他复制手段保存论文。□公开□保密(年){保密的论文在解密后应遵守此规定)"签知主《节_导师签名:[泉曰期:千}ADissertationSubmittedtoChinaUniversityofGeosciencesforMasterDegreeResearchonWebpageclassificationAlgorithmbasedonStatisticsMasterCandidate:MengQingfeiMajor:ElectromicsandCommunicatio
4、nEngineeringStudyOrientation:SignalAcquisitionandInformationProcessingDissertationSupervisor:Prof.FuPingBusinessMentor:PanJimingChinaUniversityofGeosciences(Beijing)摘要随着计算机和网络信息技术的发展,特别是互联网的广泛应用,使得Web上的信息资源得到了快速发展,网页中包含的内容越来越复杂,越来越丰富。怎样对Web网页进行系统分类,并从海量的数据中获得用户想得到的精确信息成为研究者们研究的重点课题。Web网页分
5、类是互联网信息分类及大数据领域的一种重要方法,主要用于对互联网海量的网页进行归类,方便人们对需求信息进行搜集。传统文本分类技术应用于诸多领域,主要用于自然语言处理、内容过滤、信息搜集。文本分类技术在二十世纪九十年代开始成熟,它主要根据训练语料生成训练模型,然后对未知文档进行分类,确定未知文档的所属类别。Web网页内容是以动态形式展现信息资源的,它的组织结构是半结构化或结构化,然而信息内容中80%以上的信息是中文文本构成的,如果采用传统文本分类算法对Web网页进行分类,就需要对先Web网页进行URL爬虫,得到带有HTML标签的Web文件,去除网页的HTML标签,生成传统格式
6、的文本,然后对传统的文本分类。自文本分类技术发展至今,学者对文本分类技术做了很多深入的研究,比如分词技术,特征提取技术,文本分类技术,每种技术已经到了很成熟的地步。然而在特征提取的过程中,人们对特征提取得到的特征词以及如何对其设置权重这样的问题研究不是特别深入。基于文本分类研究现状,本文主要以实验的方式研究信息增益特征提取算法与ITC权重算法结合进行分类的课题,并对现有ITC权重算法做修正改进,进一步提高了分类的准确率。本文的另一个工作是实现了Web网页分类系统,并将分类结果应用于防火墙系统,实现了URL过滤模块。为防火墙URL过滤技术保证了准确率,支持防火墙的更新升级。
7、关键词:Web网页分类,爬虫,ITC权重算法,特征提取,URL过滤1AbstractWiththedevelopmentofcomputerandnetworkinformationtechnologyespeciallywideapplicationofinternet,theinformationresourceonWebdevelopsrapidly,thecontentofwebpageismoreandmorecomplicatedandabundant.HowtosystemicallyclassifyWebpag
此文档下载收益归作者所有