资源描述:
《基于概念格的多文本知识源挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要现实世界中,90%的知识来源于文本,从文本知识源中获取专业知识是一种重要的途径。但不同的文本对对象的描述往往有所不同,为了获取完备的知识,需要从多种文本知识源中挖掘。文本挖掘工具目前有两大主流:商业文本挖掘工具与开源文本挖掘工具。商业文本挖掘工具适用范围比较广,受限条件少,但因其高昂的价格令不少中小企业望而却步。开源文本挖掘工具种类多样,然而相当一部分工具不具兼容性,只适用于特定的场景,在Weak、ROSTCM、LIBSVM、LingPipe四款开源工具中只有Weak带有关联规则的算法实现。概念格是由德国数学家R.Wille教授于1982年首次提出,是数据分析与规则提取的一种
2、有效工具。概念格描述了对象和属性之间的关系,概念格的节点是一个对象/属性序对,称为(形式)概念,由两部分组成:外延和内涵。近年来,概念格已被成功地应用于各个领域。本人基于概念格主要做了如下工作:(1)分析和总结了文本中知识的不一致性类型,并提出了基于框架表示法的知识不一致性检测及修正算法,实验表明所提出的不一致性处理方法是可行和有效的。为下一步的知识服务奠定了基础。(2)提出一种基于属性分析的关联规则挖掘方法,以减少关联规则的数量。主要有以下三步:首先,该方法从属性的角度分析其取值域中存在层次结构的特点,然后对属性值进行模糊聚类以控制概念的数量和提高概念的质量。最后进行了研究实验,验
3、证了方法的可行性,并获取了有意义的知识。(3)区分了文本中的多值知识,并引入模式结构,使多值文本知识更加有效的转化为单值文本知识且使可视化效果更好,并给出了多值文本知识转化为单值文本知识的具体步骤,并用实例对这一过程加以描述。关键词:文本挖掘,概念格,模式结构,文本知识,关联规则IAbstractAbstractIntherealworld,90%oftheknowledgecomesfromthetext,anditisanimportantwaytoobtainspecialknowledgefromthetext.However,differenttextshavediffer
4、entdescriptionoftheobjects,inordertoacquirecompleteknowledge,itisnecessarytoextractknowledgefrommultipletexts.Currently,therearethefollowingtwotextminingtools:commercialtextminingtoolsandopensourceones.Theformeroneswhichwithlesslimitedconditionshaveawiderangeofapplication,butwithlessuseamonglot
5、sofsmallandmedium-sizedenterprisesduetoitshighprice.Therearevariousofopensourcetextminingtools,however,itisonlyappliedinsomecertainissueswithrespecttoitslackofcompatibility.OnlytheWeakthathasassociationrulealgorithmsamongopensourcetools,suchasWeak,ROSTCM,LIBSVM,LingPipe.Conceptlatticeisaneffect
6、ivetoolfordataanalysisandruleextractionwhichwasproposedin1982byProfessorR.Wille,aGermanmathematician.Theconceptlatticeofacontextdisplaystherelationshipsbetweenobjectsandattributesinthecontext,andanodeoftheconceptlatticeisanobjects/attributespair,calleda(formal)concept,consistingoftwoparts:theex
7、tentandintent.Inrecentyears,conceptlatticeshavealreadybeensuccessfullyappliedtoawiderangeofscientificdisciplines.Basedontheconceptlattice,ourmaincontributionsinthispaperareasfollowings:(1)weanalyzethekindsofknowledgeinconsistencyi