句子关键词提取算法设计

句子关键词提取算法设计

ID:5388612

大小:206.50 KB

页数:4页

时间:2017-12-08

句子关键词提取算法设计_第1页
句子关键词提取算法设计_第2页
句子关键词提取算法设计_第3页
句子关键词提取算法设计_第4页
资源描述:

《句子关键词提取算法设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、_________________________________________________________________________www.paper.edu.cn句子关键词提取算法设计1李明浩(厦门大学计算机科学系,福建厦门361005)摘要:本文从网络答疑系统的设计与开发的需要出发,讨论了句子关键词提取的总体思路,即“先分解再综合,遵循组句规律,抽取特征,降低难度,提高速度”,并具体提出一个算法,从理论上,该算法能完成一般语句的关键词提取,而且通过引入独立字、固定词的概念,加快了关键词提

2、取的速度。同时也指出了算法存在的不足。关键词:句子关键词提取1引言网络答疑系统的设计与开发是目前的一个研究热点,其中涉及到的关键技术是如何从用户输入的问题中提取主要意思,并且由计算机根据相关度从答案数据库中查询并给出答案。要从用户输入的问题中提取主要意思,即需要解决如何从一句话中提取关键词然后逐级匹配的问题。本文就如何从一句话中提取关键词提出一个不成熟的算法。2平台(知识库)要进行关键词的提取,首先要有完整的语义分析库。万幸的是,董振东先生在《知网》上给出了一个完整的库,包括了词性、词义等等,可供给我们研

3、究人员免费使用。纵观该库,分类科学、分析精到,经我国汉语言研究权威机构认证通过,非常适用。我们将其选作关键词提取的支持库,即知识平台。3关键词提取的总体思路总体思路是“先分解再综合,遵循组句规律,抽取特征,降低难度,提高速度”。首先,要对句子进行划分,判断该句是简单句还是复合句(具体内涵与汉语研究略有不同,见算法部分),将复合句划分为简单句,然后以简单句为单位进行提取。复合句关键词在此基础上进行连接。这样将极大地简化关键词提取的复杂度。简单句提取关键词时先进行字词判定,这时应用许多汉语字词组成特点以加快判

4、断速度。这是核心部分。在其中,我引入独立字、固定词概念。所谓独立字,就是指一般情况下不能组词的字。固定词即该词最后一个汉字不可能与其后面的汉字组词的词。这两个概念仅1李明浩(1975-),男,福建连城人,讲师,龙岩市成人中专学校教务处主任,厦门大学在职研究生,主要研究领域为信息安全保障。1中国科技论文在线_________________________________________________________________________www.paper.edu.cn为本算法所用,不作一般研究

5、用。判定字词后,根据词性结合常见的独立字作用(如“是”作判断谓语、“的”做定语连接部分)提取出主谓宾,即所谓的关键词。4关键词提取的算法描述关键词的提取,最终落实到句子成份的划分,即划分出主谓宾并提取出来。下面是具体算法。4.1利用标点符号判断一句话主要的标点符号有句号、问号、感叹号等,只要出现它们,就表明是一句话。引号内的部分是不是一句话的判断:若引号前有冒号,则肯定是一句话。若引号前没有冒号,则将其看作是句子的相对独立部分。省略号是不是一句话的结束的判断:若省略号后面立即回车,则一定是一句话的结束;若

6、后面紧跟汉字,则先将其当作不是一句话的结束,在后面利用标点符号判断一句话中的相对独立部分时再进行判定。接下来的判断均以此时划定的一句话为单位进行。4.2划分简单句和复合句根据句子中标点符号的个数来判断,一句话不止一个标点符号,则判断为复合句。注意,此处的简单句复合句与汉语上的定义略有不同,仅是为方便算法设计而定。4.3简单句关键词的提取首先是如何将词语划分出来。汉语的所有词汇直接连在一起,而没有空格隔开,且词语的字数不确定,这些都增加了划分词语的难度。针对这情况,我设计算法如下:4.3.1常见的独立字和固

7、定词取出最常见的独立字有“是”、“为”、“不”、“和”、“与”、“或”、“了”、“的”、“地”、“得”、“有”、“中”、“将”等。取词时先判断它前后的汉字是否与它连成一个词。以“是”字为例,一句话为“这是不能否认的”,先判断“这”与“是”不是一个词,再判断“是不”,它可以作为一个词,因为“不”字后面还有汉字,这时又要先判断“不能”是不是一个词,是一个词,则“是不”就不是一个词。又如“是否可以判断呢”这句话中,“是否”可以是一个词,应判断“否可”是不是一个词,在此处显然不是,这时就可以判定“是否”在这句话中

8、是一个词。再如“通信双方是互相信任的”这句话,“是”字与其前其后的汉字都不能组成词,那么很容易判断它是一个独立字,先取出。最常见的固定词有“我们”、“你们”、“他们”、“那么”、“最终”等,但“介绍”不是,如“向您推介绍兴的黄酒”,此处的“介绍”就不是。当然,根据其出现的概率,可以将“介绍”当作一个准固定词语。然后,按独立字判断的方法进行判断。这将会有效地加速关键词2中国科技论文在线______________________

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。