资源描述:
《粗集理论与概率统计方法.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第七章粗集理论与概率统计方法2021/9/18粗集理论和概率统计方法在从数据中研究知识表达和决策规则推理时,都假定研究的对象可以由某些特征(属性和属性值)来特性化,如何选取有效的特征对于智能系统设计是至关重要的。但这两者的研究方法似乎完全不同,是否可以在选取关键特征的准则下达到统一?而且,前面介绍的粗集理论模型主要考虑确定性分类问题,是否可以将概率统计方法和粗集理论相结合,为确定性和不确定性知识表达系统提供一个统计粗集模型?本章首先简要回顾一下信息理论中不确定信息的基本概念,介绍在推理学习中选取有效特征的概率统计方法,讨论粗集理论方法和概率统计方法的统一性,然后提出统计粗集模型的概念,最后
2、将确定性粗集模型和统计粗集模型进行比较。2021/9/187.1不确定信息的测度与推理学习的概率统计方法假定一个可能事件集合,其事件出现的概率为p1,p2,p3,p4.......,pn,能否找到一个对结果不确定程度的测度,它应满足下列要求:(1)测度函数应该在pi上连续(2)如果所有pi都相等即pi=1/n,则测度函数应是n的单调递增函数,当存在更多的可能事件时,对于同样的事件存在更多的选择和不确定性。2021/9/18(3)如果一个选择分为两种选择,原来的测度函数应是每个测度函数值的加权和。基于上述要求,我们采用shannon提出的熵的概念作为不确定信息的统计测度,即这里k是一个常数,
3、pi是系统在它的第i个定量状态时的概率。如果一个系统被分成k>1个子系统,H的期望值可以表达为2021/9/18例7.1一个知识表达系统给出表格表达形式,U对象a高度b头发c眼睛d分类1矮黑蓝-2高黑蓝-3高黑棕-4高红蓝+5矮黄蓝+6高黄棕-7高黄蓝+8矮黄棕-2021/9/18在表7.1中,“+”类对象出现的概率p+=3/8,"-”类对象出现的概率p-=5/8,则初始熵Hi=-(3/8log3/8+5/8log5/8)=0.954.HI度量了系统在初始状态时的信息不确定性为了对由属性和属性值特性化的对象选出合适的属性子集,我们通过最小化系统的熵值以减小信息的不确定性,为此,我们先考察各
4、属性值对对减小信息不确定性的情况。例如,对于表7.1我们可以根据头发属性的值,把集合U划分称一些不相连的等价类,如图2021/9/18头发p黑色=3/8e1-e2-e3-p红色=1/8e4+e5+e6-e7+e8-p黄色=4/82021/9/18根据图7.1所示的划分系统的头发的熵H头发可以表达为H头发=p黑H黑+p红H红+p黄H黄其中p黑=3/8,p红=1/8,p黄=4/8划分后相应子系统的熵为2021/9/18由此我们得到H头发=4/8(-1log1/2)=0.1515这表明基于属性头发的属性值对U进行分类可以减少信息的不确定性,即β头发=Hi-H头发=0.954-0.1515=0.8
5、025类似的有β眼睛=0.347,β高度=0.003对于由特征特征化的对象的分类规则可以用决策树的形式表达,即选择最高β值的属性为树的根,树的每一分支对应根属性的一个等价类,对这些包含不同专家类的对象的分支节点要进一步分类,对每一分支,通过在属性的可用集合中选取最好的属性,进行同样的过程,已经被用在现行分支的属性不再包含在内。例如,在我们的例子中,因β头发为最大值,属性头发被选作树的根。在图7.1中,分支节点黄色包含“+”和“-”两个专家类,这就意味着需要对对象的这个子集作进一步分类,这个子系统的初始熵为1,对于其余的每一个属性,我们可以计算其熵值的减小,2021/9/18头发黑色红色黄色
6、e1-e2-e3-e4+眼睛蓝色e5+e7+棕色e6-e8-2021/9/187.2粗集方法与概率统计方法的比较例7.2考虑下面一个知识表达系统U对象a重量b性别c分类1重女+2重男+3中等男+4中等女+5轻男+6轻男-7轻女-8轻女-9轻男-10轻女-2021/9/18根据重量的属性值,把U分成不相连的子集如下图所示重量重中等轻e1+e2+e3+e4+e5+e6-e7-e8-e9-e10-2021/9/18系统的熵值为2021/9/182021/9/18命题1一个知识表达系统S=(U,C,D,V,F),令T={y1,y2,..........,y10}是U上的一个划分,每一个yi代表一个
7、概念,且2021/9/18例7.3考虑一个类似与表7.2所示的知识表达系统U对象a重量b性别c分类1重女+2重男+3中等男-4中等女-5轻男+6轻男+7轻女+8轻女-9轻男-10轻女-2021/9/18根据“重量”的属性值,我们把7.3中的对象分成三个不相联的子集如下图重量重中等轻e1+e2+e3-e4-e5+e7+e6+e8-e9-e10-2021/9/18Hi=1,H重=0,H中等=0,H轻=1p重=2/10,p中等