资源描述:
《启发式知识获取方法研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第28卷第1期计算机工程2002年1月Vol.28№1ComputerEngineeringJanuary2002·基金项目论文·文章编号:1000—3428(2002)01—0062—03文献标识码:A中图分类号:TP182启发式知识获取方法研究12赵卫东,李旗号(1.复旦大学管理学院,上海200433;2.合肥工业大学,合肥230009)摘要:归纳学习是解决知识自动获取的有效方法。针对ID3算法、基于粗集的归纳学习以及其它一些归纳学习方法存在的问题,提出了一种新的归纳学习算法ITIL。此算法用信息增益为启发式,选择尽量少
2、的重要属性或组合,以可分辨性为依据提取规则。许多实例表明,这些规则不仅简单,而且冗余小。作为知识获取模块的一部分,ITIL已被集成到一个“基于知识发现的医疗诊断辅助系统”动态知识库子系统中。关键词:归纳学习;粗集;信息论ANewMethodforInductionLearningofDecisionRules12ZHAOWeidong,LIQihao(1.CollegeofManagement,FudanUniversity,Shanghai200433;2.HefeiUniversityofTechnology,Hefei
3、230009)【Abstract】Inductiveiearningisausefulmethodforsolvingtheautomaticknowledgeacquisitioninintelligentsystems.InrelationtoproblemsinsomeinductivelearningalgorithmssuchasID3,learningbasedonroughsetandRITIOproposedinRef.6,anewinductivelearningmethodITIL(Information
4、Theory-basedInductionLearning)isputforward,inwhichfewerimportantattributesdiscerningobjectsindecisiontablesarechoosentoextractrulesbasedoninformationentropyandroughsettheory.Someexamplesshowthatacquiredrulesusingtheproposedalgorithmarebothsimpleandincludinglessredu
5、ndancycomparedwithabefore-mentionedalgorithm.Asapartofknowledgeacquisitionmodule,ITILhasbeenintegratedintoamedicaldiagnosisaidedsystem.【Keywords】Inductivelearning;Roughset;Informationtheory知识获取是建造智能系统的瓶颈。专家的经验蕴藏在解j=1,2,⋯,m,
6、
7、为集合的基。决过的大量实例中,而难以用全面、简单化的形式表示。所D的熵为H(D)
8、=-Sip(Xi)logp(Xi)以从大量的案例中归纳学习对决策有用的模式,是解决知识D相对P的条件熵为nm获取难题的有效途径。H(D
9、P)=-åp(X)åp(Y
10、X)logp(Y
11、X)ijiji本文根据最短描述长度原理[1],提出了一种新的归纳学i=1j=1习算法。它的基本思想是使获得的规则前件尽量简单,以便式中p(Yj
12、Xi)=
13、XiÇYj
14、/
15、Xi
16、用较少的条件作出决策。这是与人的有限理性相符的。和根据信息论,某条件属性相对于决策属性的重要性,体ID3、基于粗集的学习等方法相比,本文的算法具有复杂度现在它引起的互信息的
17、增量上。具体地说,设PÌC,属性小,获取的规则不仅简单且相对于决策表是最小确定的。aÎC对决策P的作用用其增加的信息量评价,即1决策属性重要性的度量S(a)=I(PÈ{a};D)–I(P;D)=H(D
18、P)–H(D
19、PÈ{a})(1)决策对象的各种属性包含了决策需要的信息,但是在特式中S表示属性a的重要性度量,I表示互信息,H表定的场合下,属性的重要性是不一样的。选择与决策紧密相示条件熵。关的主要属性是作出准确和快速决策的前提。当P=>时,S0(a)=H(D)-H(D
20、{a})(2)0专家是从大量的决策实例中衡量属性的作用,
21、所以可以S(a)或S(a)越大,说明属性a越重要。从决策表提取的知识写成规则形式:t®scf,用决策表分析属性的重要性。决策表可用三元组D=表示,其中U为实例论域,C和D分别为关度:cf=