资源描述:
《网页模糊归类算法的应用与实现 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、网页模糊归类算法的应用与实现摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FL标记。二级指标因素集(词性)包括:名词,动词,形容词,副词,介词,连词,助词,数字,符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0),V2(不太可能属于0.25),V3(可能属于0.5),V4(很可能属于0.75),V5(属于1)}。专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为A={0.128,0.128,0.128,0.104,0.10
2、4,0.104,0.06,0.06,0.06,0.06,0.05,0.05};根据语言学专家对各类别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为An={0.28,0.18,0.24,0.06,0.05,0.04,0.04,0.06,0.05};根据词语的互信息量确定出三级指标因素权重为Anm={Anm1,Anm2…Anmx}其中,Anmx即为对应词语的互信息量隶属函数采用卡夫曼教授提出的隶属函数确定方法(正态分布模型)确定如下:①词频针对“不属于”的隶属函数②词频针对“不太可能属于”的隶属函数③词频针对“不可能属于”的隶属函数④词频针
3、对“很可能属于”的隶属函数⑤频针对“属于”的隶属函数其中,axyz是训练样本中词语的相对词频;x为样本网页中对应词的统计词频;系数是通过人工评判得到一些特殊点,由待定系数法求出的。下面就要根据多级模糊综合评判的计算方法与步骤将待归类网页与所有类别的平均参照样本进行一遍计算,得出一组表示该网页与各个类别贴近度的数值。然后按照“最大隶属原则”,将网页划到Vn值最大的对应的类别中;或者用“域值法”,事先确定一个不大于1的域值λ,若Vn>λ则认为网页属于此类别,因此,一个网页可能同时属于多个类别。网页模糊归类实例(1).前期工作.简化的分类的标准:经济类,体育类,科教类.训练样本数目:48篇
4、(三类各16篇).待归类网页:.一级指标因素及权重:U={U1=0.5,U2=0.5}.二级指标因素及权重:U1={U11=1.0}U2={U21=0.4},U22=0.26),U23=0.34}.三级指标因素及权重:U11={U111=0.86},U112=0.14)}U21={U211=0.11,U212=0.35,U213=0.21,U214=0.06,U215=0.10,U216=0.17}U22={U221=0.26,U222=0.38,U223=0.36}U23={U231=0.46,U232=0.54}.经济类训练网页样本相对词频:a11={a111(经济1.2),a112(
5、快讯1.2)}a21={a211(我国1.1),a212(经济2.2),a213(水平1.8),a214(三年0.5),a215(人民0.9),a216(生活1.3)}a22={a221(实现1.3),a222(翻番1.8),a223(提高1.7)}a23={a231(连续1.6),a232(日益1.7)}(2).模糊综合评判首先统计待分类网页的各个词语的绝对词频如下:U11={U111(经济1),U112(快讯1)}U21={U211(我国1),U212(经济2),U213(水平1),U214(三年1),U215(人民1),U216(生活1)}U22={U221(实现1),U222(翻番
6、1),U223(提高1)}U23={U231(连续1),U232(日益1)}总共可以得到4个一级模糊综合评判矩阵如下:构造二级模糊综合评判矩阵①采用M(∧,∨)算子的运算结果②采用M(.,)算子的运算结果构造三级模糊综合评判矩阵①采用M(∧,∨)算子的运算结果②采用M(.,)算子的运算结果多因素综合评判①采用M(∧,∨)算子的运算结果②采用M(.,)算子的运算结果网页归类决策通过三轮计算得出下表:样本与类别贴近度经济类体育类科教类采用M(∧,∨)算子0.680.310.42采用M(.,)算子0.800.160.27不管采用哪一种算子,如果用“最大隶属原则”判断,显然都应该属于“经济类”;如
7、果用“域值法”(λ=0.6)判断,也应该都属于“经济类”。结果分析由上述算例可以看出,若用“最大隶属原则”判断,取λ=0.68,采用M(∧,∨)算子的算法就无法对此网页归类了,而采用M(.,)算子却可以对网页正确归类。另外,采用M(.,)算子的结果区分效果比较明显,与人工归类的结果比较接近。由此可见,采用M(.,)算子的算法明显优于采用M(∧,∨)算子的算法。本文的实例网页最后得出的与“经济类”网页的贴近值仅0.8,比理