基于框架匹配的网络文本分析

基于框架匹配的网络文本分析

ID:22279256

大小:55.00 KB

页数:7页

时间:2018-10-28

基于框架匹配的网络文本分析_第1页
基于框架匹配的网络文本分析_第2页
基于框架匹配的网络文本分析_第3页
基于框架匹配的网络文本分析_第4页
基于框架匹配的网络文本分析_第5页
资源描述:

《基于框架匹配的网络文本分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于框架匹配的网络文本分析-->1绪论1.1研究背景和意义在我们受益于信息化给我们带来的种种好处之时,由于全社会对于信息化技术的过度依赖,导致信息安全问题层出不穷。一方面,面对庞大的信息世界与杂乱无序的超级链接,用户在搜索查找目标信息时感到非常困难并花费大量时间;另一方面,用户通过各种渠道获取或分享网络资源的同时也不可避免地使大量的网络“垃圾”如不良信息、病毒邮件等侵入他们的生活,造成极其严重的后果。据有关机构调查,青少年访问过不良网站,其中少部分频繁浏览该类网页,严重影响青少年的健康发展。所以,目前的关键工作就是要对互联网进行合理管理,去其糟粕取其精华,将信息

2、资源中的无用或不良信息过滤掉,给用户一个绿色的网络空间。为了实现这一目标,信息过滤技术应运而生。1.2研究现状文本过滤技术源自在面向图书馆的用户需求管理工作时提出的“商业智能机器”设想,该设想为文本过滤的发展奠定了一定基础。基于此,首次以电子邮件系统为例对信息过滤进行描述,通过“内容过滤器”实现过滤机制;等人设计出该系统,并建立信息选择模式;而后的阶段,信息过滤得到该领域的普遍关注,第一届会议就提出在信息选择过程中采用信息抽取技术,积极发挥自然语言处理技术在文本过滤领域中的强大作用。提出一种语义倾向性方法,使用一个词和强烈表示正面倾向信息,减去它和强烈表示负面信

3、息,计算这个词的语义倾向。如果一篇评论中所有词的语义倾向值之和为正,那么判断评论为正面的,否则判断为反面的。等人提出了一个情感分析器主要对句子进行语法分析,然后利用情感词汇表和情感模式库分析句子的语义关系,主要是针对结构简单的文档进行过滤。...............2信息过滤技术2.1信息过滤理论基础信息过滤是信息检索的一个重要分支学科。美国计算机科学家认为信息过滤是建立在检索的基础之上,以满足用户信息需求为目的,在动态文本流中主动副除其他不良信息,搜索有效信息的过程等学者认为信息过滤用于管理大批信息流,旨在为用户提供需求信息。经过研究分析,信息过滤的实质是

4、将用户需求模板与动态信息流进行匹配计算,并抽取有用信息传送给用户。信息过滤可描述为一个二值分类问题。即设待过滤文本内容为存在两个文档类:不良信息类与其他信息类,信息过滤的实质是将待过滤文本集合归划到类或者类中,然后将划到不良信息类的文档过滤掉。2.2信息过滤技术关键字匹配过滤技术是一种基础的文本过滤技术,因其方便、快捷的特点,国内普遍采用关键词技术过滤网络不良信息〗。其主要思想是对待分析过滤文本内容进行预处理,同用户词库进行比对并统计结果,如果结果超过设定的阈值,那么说明文本内容属于不良内容信息,则要被过滤,反之则放行。该技术的基础是创建一个庞大的关键词列表,并

5、保证不断更新。关键词匹配算法中常用布尔模型和向量空间模型。布尔模型的主要思想是抓取特征词汇对其进行逻辑运算,最后进行相应的文本处理。其中,一般要找最能体现该文本的关键词或特征项来作为特征词汇。向量空间模型将文本和用户需求转换为向量形式后判断待过滤文本与用户需求模板之间的相似度同设定的阈值的大小,按照结果执行过滤或放行指令。这种模型体系简单且较好实现用户需求,但没有添加权重计算,不能加入人工调节,所以导致过滤效果不容易在控制范围内。3基于框架匹配的文本分析....................103.1中文分词.......................103

6、.2几种常用的分词方法.................114网络文本过滤系统系统........................224.1设计方案.......224.2系统的功能设计....225总结与展望............455.1工作总结.......................455.2工作展望.....................454网络文本过滤系统系统4.1设计方案在代理服务器转发网络数据包时,可从语义的角度出发,对目标文本进行过滤。基于这种思想建立的相关系统首先从自然语言学的角度出发,对样本文本与待过滤文本分别进行分词、词性标注以

7、及特征提取。其次,依据格语法知识构建样本文本与待过滤文本的语义框架,使之充分体现原始文本的语义关系。再次,按照汉语的语法知识,采用语义距离函数及框架相似度计算公式。最后,基于给定的样本训练与人为的调整,找到合适的参数和阈值,从而判断文本是否被过滤,达到高查准率、高查全率。4.2系统的功能设计如上图所示,本系统主要分为两大部分:网络监控和文本过滤。这两大部分都由系统控制模块控制、协调并对整个运行进行管理。系统控制模块主要对系统进行初始化设置,并为各模块分配系统需求的资源。其工作流程为:首先,连接数据库,然后读取网络访问记录日志表中过滤规则表的历史记录。最后,创建内

8、存映射文件,以便在系统的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。