利用短语抽取系统建设基于语义理解的知识库

利用短语抽取系统建设基于语义理解的知识库

ID:34433296

大小:2.13 MB

页数:68页

时间:2019-03-06

利用短语抽取系统建设基于语义理解的知识库_第1页
利用短语抽取系统建设基于语义理解的知识库_第2页
利用短语抽取系统建设基于语义理解的知识库_第3页
利用短语抽取系统建设基于语义理解的知识库_第4页
利用短语抽取系统建设基于语义理解的知识库_第5页
资源描述:

《利用短语抽取系统建设基于语义理解的知识库》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、东北大学硕士学位论文利用短语抽取系统建设基于语义理解的知识库姓名:靳鹏申请学位级别:硕士专业:计算机软件与理论指导教师:张俐20040101东北大学硕士学位论文摘要利用短语抽取系统建设基于语义理解的知识库摘要汉语分析技术是中文信息处理的基础。目前,汉语词法分析技术已比较成熟,但在词法分析之上的短语分析及句法分析仍然很不成熟。究其原因,主要在于汉语是一种意合语言,语言表达上缺乏相应的语义结构信息,在句法层面上难以得到比较合适的规律,从而很难进行深入的分析。但是,汉语的短语本位语法理论认为:词组和句子的构造原则

2、基本一致。词组被包含在句子里时是词组,独立时就是句子。因此,在句法分析领域,采用分而制之的处理思路,比较而言,更加符合汉语语法语义的基本结构特征。进而,针对汉语短语结构的组块分析技术得到了越来越广泛的应用。在汉语的范畴内,不加严格限制的说,组块就是短语或者词组。所谓组块分析,其基本思想是将完整的句法分析分为两个过程:首先是组块的识别:从句子中识别出组块;其次是组块之间关系的判断;将组块结合成句子。本文介绍了一种基于层叠有限状态自动机的组块分析方法,理论上可以按层次分析出句法结构树,或者句法结构森林。在组块的

3、识别过程中,主要依靠对于汉语短语的主观语言经验,定义分析规则,同时利用分析预处理阶段得到的统计信息计算出局部互信息,用以验证规则匹配后得到的结果。此外,这种组块分析方法还把判断组块之间关系的工作融合在组块的识别过程中,当较高层次的组块被抽取出来以后,其内部较低层次组块之间的关系就确定了。对于本分析系统而言,最重要的子系统是定义规则和确定规则运行序列的语言知识加工模块。本文设计了一些算法策略,用来考察和筛选运行效果较好的规则,同时优化规则运行的序列。这对提高分析器的分析质量有很大的帮助。本文另一个重要内容是定

4、义了一种二元结构处理不同条件下的短语标注,这种处理方法在实践上大大减少了规则的数量,使得对于规则以及规则作用序列的优化成为可能。最后,本文还设计了一种以上述分析器为核心,基于语义理解的知识库系统,它定义了一系列数据结构,用来模拟真实世界的概念表达形式以及概念之间的关系。并以此来记录加入了句法结构标记的中文文本中的语义信息。这必将为自然语言处理的语义研究做出一定的贡献。关键词:句法分析短语抽取组块分析互信息知识库语义理解Ⅱ东北大学硕士学位论文AbstractBuiltaKBSBasedonSemanticsb

5、yChinesePhraseExtractionSystemAbstractChineseanalysisisthebaseofChineseinformationtechnique.Now,itisbecomingsucceedinChineseaccidenceanalyzing,butthephraseandsyntaxanalysisbuiltonithavebeenf.盯tomaturefor叩plication.ThereasonisthattheChineseisalanguageofnost

6、ructure.TherearefewsignalsforthesyntaxstructureinaChinesesentence,andthereforetherearefewproperrulesforthesyntaxinacolrlrnonsituation.Itisverydifficultforadeeplyanalysis.ButthereisatheorythatlookstheChinesephrase嬲astandardforthesyntaxanalysis.Ithassaidthat

7、thephraseandsentencearesameinthestructureprincipleanditiscalledaphrasewhenitisacomponentofasentence,oritisjustasentence.SoitmoreanswerforthemostessemialcharactersofChinesestructurethatanalyzestheChinesesentencebydividingandruling.Thechunkparsingtechniquefo

8、rChinesesentencehasbecomeamainstream.11Iebaseidealofchunkparsingisthatdivideasyntaxanalyzingfortwosteps:Thefirstischunkidentifying.whichdistinguishedthechunkfromasentence;Thesecondisdefiningtherelationbetween

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。