基于内容的网页文本信息过滤技术研究.pdf

基于内容的网页文本信息过滤技术研究.pdf

ID:50116647

大小:4.77 MB

页数:55页

时间:2020-03-05

基于内容的网页文本信息过滤技术研究.pdf_第1页
基于内容的网页文本信息过滤技术研究.pdf_第2页
基于内容的网页文本信息过滤技术研究.pdf_第3页
基于内容的网页文本信息过滤技术研究.pdf_第4页
基于内容的网页文本信息过滤技术研究.pdf_第5页
资源描述:

《基于内容的网页文本信息过滤技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、图书分类号::学校代码务从乂士寧働论文论文题巨基于内容的网文本信息寸研究生姓名斯佩摇导师姓名任冬梅学科专业工禾呈研究方向信息安全理论与技二〇一五年六月西南石油大学研究生学位论文知识产权声明书及学位论文版权使用授权书本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西南石油大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以釆用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时,本人保证,毕业后

2、结合学位论文研究课题再撰写的文章一律注明作者单位为西南石油大学。本学位论文属于、保密(),在年解密后适用本授权书。、不保密(请在以上相应括号内打“”)学位论文作者签名指导教师签名:年月)曰年月名曰西南石油大学研究生学位论文独创性声明本人声明:所呈交的研究生学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含其他人为获得西南石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说

3、明并表示谢意。学位论文作者签名年月》日摘要伴随网络的幵放性和规模越来越大,它方便人们自由交流信息的同时,也存在许多负面影响,如各种迷信、色情、暴力、反动等非法信息传播或内部机密信息泄漏,已经成为人们日益关注的焦点问题。为了屏蔽这些不良信息,人们提出了各种自动抽取和过滤技术,如地址过滤器、关键字过滤技术、智能内容理解过滤等技术,并在实际应用中取得了良好效果。本文主要在研究基于内容的网页文本信息过滤技术的基础上,期望能使用一种新的编辑距离算法对网页文本进行分析、挖掘,以达到更快、更准确地过滤不良信息的目的。统计分析和知识挖掘是目前常用到的文本

4、内容分析、挖掘方法。在初步研究这些方法的基础上,从文本语句的结构分析入手,提出了对网页文本内容进行模板匹配找出符合某种模式的内容,进而对其进行分析挖掘找出所需信息的方法。根据用户的过滤需求,从用户预先收集的实验样本中提取句子模型,并转化为匹配模板,建立中文模板库。再根据待测文本与中文模板的匹配情况,以及匹配关键词的权值来判定待测文本是否满足用户过滤需求。在该算法中综合考虑了文本的统计特性和知识特性两方面因素,借助一对多映射的扩充型编辑距离计算算法,将文本与具有某种特定模式的中文模板结合起来,对网页文本内容进行分析、挖掘,找出所需过滤的不良

5、信息。经过初步的简单样本测试,论文提出的方法在文本信息过滤方面取得了较好的效果。初步实验表明,本文使用的扩充型编辑距离算法能够实现对网页文本中不良信息较准确的匹配识别。从对网页文本内容的匹配分析到对文本不良信息的过滤,均取得了较好效果。然而要对文本进行内容分析,使文本信息过滤智能化是一个复杂的过程。本文提出使用的算法是对文本挖掘及过滤方法的尝试,其中还存在着很多需要改善和可以改进的方面。例如:分词的准确率、文本句子与文本模板之间匹配的精确度,以及在满足网络不良信息过滤的实时性要求下,可以引入更多的语义分析来提高过滤的准确性。关键词:文本信

6、息过滤;自然语言处理;扩充型编辑距离;过滤判定AbstractWiththeopennessandlargenessofnetwork,thesizeisbiggerandbigger.Itisconvenientforpeopletoexchangeinformationfreely,whiletherearealsomanynegativeefects,,,,,,,:第章绪论信息过滤技术的研究背景及意义信息过滤技术的研究背景信息过滤技术的研究意义信息过滤技术的发展本文的主要工作和结构本文的主要工作本文的主要结构第章网络信息过滤技术概述

7、基于因特网内容分级平台过滤数据库过滤(库、库)关键字过滤智能内容理解过滤文本分类技术信息过滤模型本章小结第章基于内容的分词与匹配算法研究中文分词算法研究中文分词算法原理中文分词工具对比与选取编辑距离算法编辑距离算法概况编辑距离算法说明编辑距离算法可进行的改进中文模板与句子间的扩充型编辑距离计算算法文本模版的定义扩充型编辑距离计算算法扩充型编辑距离计算算法证明扩充型编辑距离计算算法证明示例相关算法实现中文文本模板库建立带权值的扩充型编辑距离计算算法实现本章小结第章实验设计与结果分析4.1实验过程设计实验数据收集实验数据人工分类实验数据敏感词

8、抽取中文模板与目标中文字符串匹配匹配后的判定结果实验结果与分析第章总结研究工作总结研究的展望参考文献附录攻读硕士学位期间发表的论文及科研成果西南石油大学硕士研究生学位论文第章绪论信息过滤技术的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。