一个基于语义分析的文本过滤方法(1)

一个基于语义分析的文本过滤方法(1)

ID:30620858

大小:19.47 KB

页数:7页

时间:2019-01-01

一个基于语义分析的文本过滤方法(1)_第1页
一个基于语义分析的文本过滤方法(1)_第2页
一个基于语义分析的文本过滤方法(1)_第3页
一个基于语义分析的文本过滤方法(1)_第4页
一个基于语义分析的文本过滤方法(1)_第5页
资源描述:

《一个基于语义分析的文本过滤方法(1)》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果一个基于语义分析的文本过滤方法(1)摘要基于统计的文本过滤方法比较适用于主题过滤,对具有倾向性的文本进行过滤的效果不理想。本文提出了一个倾向性文本过滤的方法,在采用语义模式分析的同时,引入了特征区域权重因子,实验表明其查准率、查全率较高。关键词文本过滤;语义分析;语义模式1引言随着信息社会的不断发展,人们面临的信息日益剧增,如何更准确、有效地找到自己感兴趣的信息,过滤掉与需求无关的“垃圾”信息,成为了一个重要的研究问题,内容过滤技术也

2、就应运而生。目前,网上信息大多是文本形式,所以内容过滤大多是针对文本的。所谓文本过滤指的是从大量文本中找出满足用户需求的文本的过程,它对于文本信息处理具有重要意义,另外,它也可以实现对网络中不良信息的自动过滤,从而保障网络的安全。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果网上的不良信息包括暴力、色情、邪教等主题,主题性信息过滤大多采用基于统计的过滤技术,利用关键词匹

3、配技术来实现,这种方法只能过滤出与主题相关的文本,不能区分出文章的立场和态度。而有些文章虽然也包含相关的主题,但却可能对主题持有不同的立场,例如包含“法轮功”主题的文章,有些是站在批判法轮功的立场上来表达观点的,有些却是站在支持法轮功的立场上的,因此对这类信息进行分析时,不仅要分析其主题内容,还要分析它的立场和态度,即它的倾向性,采用基于统计的主题过滤技术是不能较好地解决这种过滤要求。要解决这个问题,除了要进行主题分析外,还要对文本进行语义分析,理解文本表达的主题思想,弥补统计方法缺乏语义信息的弊端,从而更精确地满足用户的信息需求。本文提出了一个基于语义分析的信息过

4、滤方法,除了对文本进行语义分析外,还充分考虑了文章主题词所在特征区域的重要性,在计算文本的倾向性指标时增加了特征区域权重因子,能更准确地过滤出倾向性文本。2倾向性文本语义模式分析文本语义模式目前的自然语言理解技术还不能全面而精确的解析和表达文本的主题思想,而倾向性文本过滤通常用于特定领域,语义分析只需基于特定领域知识,无需对文本进行全面的语义分析,只要分析出不同的倾向性。因此,对文本进行语义分析所产生的语义单元不必过细,可以简化。语言学家于1986年提出了“格语法”[1]的概念,对于文本分析采用简化的局部分析的方法,语义分析采用格语法。格语法以动词为中心研究语句的深

5、度结构,认为句子的其他成分都是对动词的修饰,每一种修饰称为一个“格”。一个句子以动词为中心词,动作的施加者称为施事格,动作的承受者称为受事格,动作的地点称为地点格等,而格关系则是谓词和格之间的语义关系。对于倾向性分析,最重要的语义关系是施事格和受事格,其他的格对于倾向性影响较小,当文本中出现了与句子中各个角色关系相对应的格时,才能判断为相关。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生

6、必须有创新性的成果为了表示语句中的语义关系,本文采用了简化的语义模式来表示文本的基本语义框架。在进行语法和语义分析时,根据动作的施加和接受,可以将文本分为4种语义模式:(a)主、谓、宾模式(b)主、谓模式(c)动、宾模式(d)关键对象模式在许多文本中,有些主体、行为或个体本身就表现出对问题的倾向,如个体“非法邪教”、行为“欺骗”本身就已经反映了强烈的倾向性,模式d中把具有这种特性的主体、行为或个体统称为关键对象。过滤模板的表示对于文本的倾向性过滤要求的表达,同样可以忽略句子中对倾向性影响较小的时间、地点等因素,因此我们采用如下简化的过滤模板来表达文本的语义关系。表1

7、过滤模板的表示表1中,Relevancy表示相关度,它代表不同的语义模式对作者观点的倾向性的权重,用正值表示正相关,负值表示负相关,Relevancy的绝对值越大,则表示倾向性越强。采用这种设置可以正确的判断在正面信息中引用负面信息的情况,例如,在过滤宣扬法轮功的反动信息的过滤模板中,批判法轮功的语义模式就具有负的相关度,这样可以避免在批判法轮功的文本中引用了法轮功言论而导致倾向性误判的情况。3倾向性文本过滤方法过滤步骤对文本的过滤过程分为3个步骤:对文本进行语法和语义分析,切分出每个句子中的语义模式。根据文本所在的特征区域和对应模板的相关度,计算该语义模式的加

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。