基于自然计算的模式识别在微信息识别中的应用

基于自然计算的模式识别在微信息识别中的应用

ID:10159696

大小:28.50 KB

页数:6页

时间:2018-06-12

基于自然计算的模式识别在微信息识别中的应用_第1页
基于自然计算的模式识别在微信息识别中的应用_第2页
基于自然计算的模式识别在微信息识别中的应用_第3页
基于自然计算的模式识别在微信息识别中的应用_第4页
基于自然计算的模式识别在微信息识别中的应用_第5页
资源描述:

《基于自然计算的模式识别在微信息识别中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于自然计算的模式识别在微信息识别中的应用摘要:随着微信息应用的发展,产生了对微信息分类识别的强烈需求。在自然算法中选择人工免疫系统算法,应用于微信息识别领域。针对微信息系统本身的一些特点,提出了适应这些特点的人工免疫算法。实验结果表明,基于人工免疫的微信息识别方法具有较低的错误否定率和错误肯定率。关键词:人工免疫;微信息;文本分类识别;匹配算法;检测器生成中图分类号:TP181自然计算(NatureInspired6Computation)具有模仿自然界的特点,通常是一类具有自适应、自组织、自学

2、习能力的模型与算法,能够解决传统计算方法难于解决的各种复杂问题。人工免疫系统是受生物免疫学启发,模拟生物体免疫系统功能、原理和模型来解决复杂问题的自适应系统。[1]微信息是即时传播的小容量文本信息。微信息既有传统的短信,又有随互联网发展而产生的twitter、iMessage、微博、微信、陌陌等社交工具产生的简短信息,按照ETIS的标准,最大字符数不超过140个字符[2],信息容量小,易于快速传播。人工免疫系统可用于微信息的识别上,能够适应微信息待识别类型的变化,保持极高的识别率。1仿生学定义对照

3、、识别算法生物体中,基因是指携带有遗传信息的DNA序列,是生物体蛋白质的决定信息,入侵生物体的病毒、细菌均由蛋白质组成,这些特异性蛋白是进行自体/非自体识别的依据。在微信息识别中,特异性蛋白可以等同于待分类微信息所包含的字或词;抗原是指待识别的这类微信息;抗体是指能与抗原能够匹配的检测器的集合,用来检测微信息是否为待归类信息。生物体中的自体对应微信息识别是指正常非待归类微信息。根据对应关系,定义:特异性蛋白集合:P={P1,P2,…Pn};m,PnAgm抗原集合Ag={Ag1,Ag2,…Agn};

4、抗体集合Ab={Ab1,Ab2,…Abn};自体集合B={B1,B2,…Bn}2抗原蛋白质库的组成首先进原始微信息进行分类,并从分类的微信息中提取出特异性的蛋白,每一个这样的蛋白都是检测器,即抗原蛋白质库。特异性蛋白的提呈:对已经人工判定为垃圾信息的微信息进行字元提取工作,得到原始的抗原蛋白库:P={P1,P2,….Pn}。3生成检测器库6由微信息的字元数量比较小,决定检测器的长度使用固定值,用随机使用字元的方法生成检测器集合。检测器生成算法有多种,效率各有优劣,这里使用骨髓模型[3],设检测器的

5、字元数量为Np,使用随机函数从检测器集合中随机选择。在不同的应用环境中,Np的取值有所不同,Np的值的大小与检测器生成算法的复杂度有很大的关系,数值过大,检测器生成算法时间复杂度高,检测效率亦高,反之生成算法时间复杂度降低,但检测效率亦相应降低,因此需要选择合适的值。根据应用中抗原的特点,Np的取值设定为6。检测器的数量应该保持在较小的范围,但又不能影响到错误否定率、错误肯定率。有学者提出初始检测器与自体集合的大小是成指数关系的:[4]衡量匹配程序的值是Pm,衡量错误否定率的值是Pf,开始时,检测

6、器的数量为NR0,自身的集合用NS来表示。此外,检测器的数量还要考虑实际因素进行调整。检测器生成后,需要进行自体耐受算法检验,保证不将正常微信息识别为待分类微信息,经过耐受算法检验的检测器才能成熟为抗体。4微信息的识别6对于待检测微信息,应用亲和力计算公式对检测器集合中的元素逐一计算,当一个检测器与微信息的亲和力达到一定程度时,这个程度通常由匹配阀值Pf来决定,将该微信息归类于已匹配信息,同时该微信息将作为下一轮特异性蛋白质选择时的候选对象。如微信息被匹配,则检测器的生命周期值Tg变为0,如微信息

7、未匹配检测器,这个检测器的Tg值则减去1,直到该值为零,则将该检测器从集合中除去。因此,检测器集合中的元素数量始终保持在适度内。在微信息识别应用中,根据生物体免疫系统二次应答的这种特性,使用匹配公式Affinity()对抗原与检测器进行计算,衡量它们的匹配值,并根据该值进行排列,该算法的效率较高。算法的实际应用表明,该算法具有较高的准确度和效率。5抗体库更新随着系统的运行,抗原的数量会不断扩充,抗体库必须具有淘汰无用抗体,集成新抗体的能力才能保持较高的识别率。当新的抗原的增加达到一定的数量时,有必

8、要在将抗原的变化反应到特异性蛋白质集合中。按照提取时的算法,对新抗原进行特异性蛋白提呈,提呈的结果将被补充到蛋白集合P中。然后按照随机原则生成一定数量的新检测器,使用成熟算法对新检测器进行训练,使得检测器集合维持动态更新的状态。65.1降低错误肯定率、错误否定率。检测器的覆盖集合超出待分类微信息集合时,发生错误肯定。对于此类检测器,否认是否能与其它正确对象匹配,均就进行删除操作。5.2检测器集合中的所有对象均不能正确检出目标微信息时,发生错误否定,有两种方法能够处理:一是加大检测器

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。