资源描述:
《自然语言处理nlp论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、自然语言处理NLP论文1.引言做为人工智能(AI)的一个研究主题,自然语言处理(NLP)已经在一些系统中得到应用。人类使用自然语言(如汉语、英语)进行交流是一种智能活动。AI研究者们一直在尝试形式化处理自然语言所需要的过程机制,如把自然语言概念化为一种知识库系统以处理人与计算机的自然语言对话,并建立计算机软件来模型化这个处理过程。一种比较成熟和有效的方法并不使用显式的领域模型而是利用关键字或模式(Pattern)来处理自然语言。这种方法利用预先设计的结构存储有限的语言学和领域知识,输入的自然语言句子由预定义的含有指示已知对象或关系的关键字或模式的软件来扫描处理。这种方法
2、也即做为一种自然语言接口与数据库系统或专家系统等进行连接,以检索其中的信息。通过学习国外相关应用案例,分析一个英语自然语言处理的模型系统,从而研究并实现基于WEB与汉语自然语言处理的地理信息查询系统模型。2.基于英语自然语言处理的系统模型Geobase2.1Geobase模型简介Geobase是针对一个地理信息系统的查询而研制的,其中用自然语言英语来查询地理信息数据库(Visual12Prolog可装入的一个文本文件)。通过输入查询的英语句子,Geobase分析并转换这些英语句子为VisualProlog能够理解的形式,然后给出查询的答案。Geobase把数据库看做是由
3、联系而联接起来的实体联系网络。实体是存储在数据库中的数据项,联系是联接查询句子中实体的词或词组,如句子CitiesinthestateCalifornia,这里的两个实体Cities和state是由联系in联接的,词the在这里被忽略,而California被看做是state实体的一个实例。Geobase通过将用户的查询与实体联系网络进行匹配来分析查询句子。如查询句子:whichriversrunthroughstatesthatborderthestatewiththecapitalAustin?首先忽略某些词:which、that、the、?,其结果查询句子为:ri
4、versrunthroughstatesborderstatewithcapitalAustin,其次找出实体与联系的内部名,实体可能有同义词、复数,联系也有同义词并可能由几个词组成等,经过转换后,查询句子为:riverinstateborderstatewithcapitalAaustin,通过查找statewithcapitalAustin的state,Geobase再找出与这个state相邻接的所有的states,最后找出runthrough(由assoc("in",["run","through"])转义为in)states的rivers。2.2数据库及实体联系
5、网络数据库谓词举例如下:state(Name,Abbreviation,Capitol,Area,Admit,Population,City,City,City,City)city(State,Abbreviation,Name,Population)12实体联系网络结构schema(Entity,Assoc,Entity)如下:schema("population","of","state")schema("city","in","state")}实体对数据库查询的接口,通过谓词db和ent实现,如:db(ent,assoc,ent,string,string)ent
6、(ent,string)2.3Geobase分析器分析器用来识别查询句子的结构,Geobase把查询的句子分类为九种类型。分析使用一种“差分表”方法,分析器中第一个参数是过滤后的表、第二个参数对应实体名,最后一个参数是分析器建立的查询结构,如:pars(LIST,E,Q):-s_attr(LIST,OL,E,Q),OL=[],!.Q为查询结构如分析句子“Howlargeisthetownnewyork?”,首先过滤器给出待分析词表:["large","town","new","york"],然后调用分析器谓词pars,即依次执行如下谓词:s_attr([BIG,ENAM
7、E
8、S1],S2,E1,q_eaec(E1,A,E2,X)):-第一个s_attr子句ent_name(E2,ENAME),由town转义为citysize(E2,BIG),匹配size("city","large")entitysize(E2,E1),匹配entitysize("city","population")schema(E1,A,E2),匹配schema("population","of","city")get_ent(S1,S2,X),!.返回实体名等12一旦分析器分析完一个句子,Geobase便调用谓词db和ent给出查询