欢迎来到天天文库
浏览记录
ID:5338760
大小:434.23 KB
页数:6页
时间:2017-12-08
《一种基于知网的文档语义模型构建方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中国科技资源导刊ISSN1674-1544CHINASCIENCE&TECHNOL0GYRESOURCESREVIEW2010年7月第42卷第4期55-60ISSN1674-1544Vb1.42No.455—60.Ju1.2010一种基于知网的文档语义模型构建方法许琦(台州职业技术学院机电工程学院,浙江台州318000)摘要:文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、
2、近义、上下位等语义关系而产生的模型偏差问题。通过计算义项相似度,加权得到文档相似度。实验证明,该方法较好地描述了文档特征,能够达到良好的聚类效果,是切实可行的。关键词:语义消歧;知网;向量空间模型;相似度计算中图分类号:TP391文献标识码:ADOl:10.3772~.issn.1674-1544.2010.04.009AHowNet-BasedSemanticModelingMethodofDocumentXuQi(DepartmentofMechanicalEngineering,TaizhouVocationalandTechnicalCollege,Taizhou318000)A
3、bstract:Asemanticmodelingmethodofdocumentisputforward.It’SbasedonthesemanticrepositoryHow—Netandvectorspacemodeltheory.ThecharacteristicsofknowledgedescribingmannerinHowNetarediscussed.Aslippedwindowsemanticdisambiguationalgorithmisputforwardwherethemodelissemantichandledusingthesememehierarchica
4、lsystem.Themodel'stermsaretransformedintomeaningsaccordingtocontextanditsdeviationproblemsthatcausedbysemanticrelationsinthelanguagesuchassynonymous,similarandhypemym-hyponymaresolved.Thesimilarityofdocumentsisweightedbycalculatingthesimilarityofmeanings.Experimentresultsindicatethatthemethodaccu
5、ratelydescribesthefeaturesofresourceswhichachievesgoodclusteringefectsandisfeasible.Keywords:semanticdisambiguation,hownet,vectorspacemodel,similaritycalculation性、长期、复杂的工作。为此,人们提出了3种1引言方法:①基于关键词的建模方法叫;②基于本体的建模方法口;③基于语义的建模方法[6-8]。网络资源80%以上是文本资源,如何用统一与①相比,③从词的语义层次上表达文档特征,的数据模型来准确有效地描述网络文本资源(以以概念作为文
6、档的特征项,较好地体现了自然语下简称文档)的特征,以便对这些文档进行有效言中词语之间同义、近义、上下位等关系,弥补地组织管理,提高资源效用,是一项富有挑战了仅以基于关键词的向量空间模型表示文档的缺作者简介:许琦(1983一),男,硕士,讲师,研究方向:企业信息化、网络化制造。基金项目:浙江省高校优秀青年教师资助计划项目“面向多终端设备的知识信息服务平台研究及应用”;浙江省教育厅科研项目(Y200909672);台州职业技术学院校级重点课题(2010ZD03)。收稿日期:2010年4月21日。一55—中国科技资源导刊第42卷第4期2010年7月点。与②相比,③只提取那些对文档建模有用的括第
7、⑨和第⑩类的义原,称为“关系义原”,用于概念,并不需要完全理解全文的语义,符合当前描述概念和概念之间的关系。义原之间存在着复的自然语言处理水平,而且它没有本体知识库的杂的关系,知网描述了上下位关系、同义关系、领域性限制,可以建立通用的数据模型。反义关系、对义关系、属性一宿主关系、部件一现有的基于语义的建模方法大都将文档映射整体关系等16种义原关系,其中最主要的是上下到某个语义知识库中,通过不同的方法提取语义位关系。根据义原的上下位关
此文档下载收益归作者所有