基于聚类算法的内容识别研究.pdf

基于聚类算法的内容识别研究.pdf

ID:57741701

大小:169.18 KB

页数:3页

时间:2020-03-26

基于聚类算法的内容识别研究.pdf_第1页
基于聚类算法的内容识别研究.pdf_第2页
基于聚类算法的内容识别研究.pdf_第3页
资源描述:

《基于聚类算法的内容识别研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、学术探讨·信总碰腰基于聚类算法的内容识别研究徐勇(吉林建筑大学,吉林长春130118)[摘要]随着互联网内容的快速增长,对于网络内容的快速识别压力越来越大。本文进行基于聚类算法的内容识别研究,为维护网络安全、网络内容健康,具有非常重要的意义。目前的互联网内容识别方式主要以关键字检索方法进行识别,但是面对日益丰富的网络内容和不同方式存储在服务器的内容,这种方式已经无法满足实际的需求。从实际问题出发针对互联网内容中以图形、图像、音频等非结构化数据形式存储在服务器中的内容进行识别,依据互联网内容的发展规律对现有的聚类算法进行改进,以求能够最大程

2、度地对互联网内容进行筛选和甄别,维护互联网安全。[关键词]数据挖掘;内容识别;聚类分析;K-MEANS聚类算法改进中图分类号:TP393.06文献标识码:A文章编号:1008.6609(2016)11-0039-03l前言面向对象内容识别过程中以单词为单位的常规检索方式,缺乏内容时间序列上的关联,检索效果大打折扣,尤其是对音视频、图片等非结构数据的内容识别,效果非常差。而由于K—MEANS聚类算法在处理大数据环境下内容中的数据流方面存在着算法敏感,以及内容识别效率和速度上的缺陷,因此,从网络内容格式类型的序列关系进行K—MEANS聚类算法

3、的改进,使其能够保持可接受的检索速度和识别能力是本文重点研究方向。2非结构化内容识别方法随着宽带流量的提高,互联网内容日益丰富,非结构化内容如:音视频、图形图像的文件越来越多。对于非结构化内容的识别方法主要包括以下几个步骤:2.1分割分割是是实现非结构化内容识别的第一步,根据内容的转换边界进行分割,分割方法包括模板匹配法、直方图法、边缘检测法、模型法、颜色柱状图法、运动矢量法以及基于多维空间仿生信息学理论的方法等。镜头边界检测作为视频检索的第一步具有重要意义,其结果将对整个视频检索结果产生直接的影响。2.2特征提取提取非结构化对象基本信息

4、及动态信息,得到一个尽可能充分反映内容的特征空间,这个特征空间将作为内容识别依据,内容特征分为静态特征和动态特征。静态特征的提取主通常采用图像特征提取方法,如提取颜色特征、纹理特征、形状和边缘特征等。动态特征是获取动态特征的方法是运动估计,通过匹配算法估计出每个像素或区域的运动矢量,作为非结构化数据的运动特征。2.3聚类高效的索引技术是基于内容的检索在大型数据库中发挥优势的保证。索引技术随着数据库的发展而发展,提高索引效率有缩减特征向量的维度和聚类索引算法两种方法,针对非结构化内容检索需要3个步骤:(1)进行维度缩减;(2)对存在的索引方

5、法进行评价;(3)根据评价定制自己的索引方式。为了保证内容识别的效率和准确性,内容识别的聚类算法尤为重要。3基于K均值聚类的内容识别均值算法基于K均值聚类的内容识别算法模型如下:(1)选取K个聚类中心作为服务器内容样本的K均值聚类算法迭代的聚类中心”。1,”:I,⋯,。:。(2)对于服务器内容样本x(设进行到第K次迭代),如果Jx一矿I

6、一),男,吉林长春人,博士,副教授,研究方向为数据挖掘、人工智能、网络安全。一39.学术探讨·倩垂必露(4)如果矿“≠矿,U=1,2,⋯,动,则回到第2步,将全部服务器内容样本重新分类,重新迭代计算;如果”k.“=w?,ot=1,2,⋯,功,则结束。K均值伪代码如下:设定聚类数目K,最大执行步骤nIla】【,一个很小的容忍误差£>0决定聚类中心起始位置CJ(O),00,起始位置Cj(O),0

7、I葺

8、一口讪II;江l,⋯,K∥计算各数据点到聚类中心的距离)训i:』1‘argmin。K{豸’)//计算数据点属于哪一聚类10,otherwise(隶属度矩阵)if(E∞=扩LJ卜”ll<占)(return();//循环终止)else{N∑C!=J21;i=1,⋯,K//更新聚类中心Eo)=lIc”一C(t-1)lI<占//进行下一轮迭代}//endif}//endfor4基于K.MEANS聚类算法改进的内容识别4.1K-MEANS聚类改进算法的数据处理现有的网络内容检索方式逐渐从关键词检索转向对象检索,也就是以内容片段为输入,从大量数据中找

9、出接近的内容。现行的互联网基于关键词的敏感内容规避业务的选择结果模式主要是采用双向选择模式,因此基于关键词的敏感内容规避业务挖掘也要遵循这样的模式原则,选取服务器中基于关键词的敏感内容进行规避

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。