欢迎来到天天文库
浏览记录
ID:52265914
大小:73.00 KB
页数:8页
时间:2020-03-26
《浅析集体智慧的实用性.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅析集体智慧的实用性浅析集体智慧的实川性——读《集体智慧编程》有感徐进澎无锡屮科方德软件有限公司我们知道Wcb2.0是相对Webl.0的一类新的互联网应用的统称。血b2.0注重用户的交互作川,川户既是网站内容的浏览考,也是网站内容的制造考。比较有代表性的两个例子是维基百科和Googleo维基百科是一个在线的百科全书,它完全是由用户维护的。任何人都可以新建或者编辑网站上的任何一个页血,同时会有为数不多的几名管理员进行监控。而Google则是批界上最为流行的搜索引擎,也是第一个根据其他网页对当前网页的引川数多少來评价网页等级的搜索引擎。维基百科邀
2、请网站的用户为其提供内容,而Google则是从Web内容的创建者对自己网站的操作屮提取重要的信息,并利用这些信息为Google的使用者设定各个网站的分值。通过以上两个例子,我们了解到Web2.0的核心就是它利用了集体智慧。那么什么是集体智慧?集体智慧对于互联网而言又有哪些实用性?如何利用集体智慧来进行数据挖掘呢?集体智慧的含义通常是指:为了创造新的想法,而将一群人的行为、偏好或思想组合在…起。Google在创立初期还是…家比较小的搜索引擎公司,但后來Google的创立者们采用了一种全新的方法对搜索结果进行排序——利用上百力个Web站点上的链接
3、來决定哪些页面的相关性最大。Google的搜索结果远远优于其他同行,现在U经成为全球最大的搜索引擎公司。那么Google就是采用了先进的算法,将來自不同人群的数据加以组合,进而得出新的结论,并创造出新的簡机。像这样利用集体智慧的例子还有很多。那么《集体智慧编程》这木书就是以集体智慧为出发点,探讨了各种能让Web2.0程序更为智能的算法及其应用。集体智慧的主要应用有如下几点:个性化推荐搜索、排名如:新浪等K客的分类文档过滤集体智1如:Google搜索引擎优化如:飞机航班的搜索聚类分组如:杀毒软件特征代码价格模型如:eBay在线拍卖特征提取如:豆
4、痂的猜你喜欢如:垃圾邮件的过滤该书的所有代码示例都是用Python语言编写的。Python语言是一-种优秀的高级程序设计语言,也是一种功能强人而完善的通用型语言。它有着简练、易于阅读、易于扩展、交互性、多范式、多平台和免费等特性。卜血来详细介绍集体智慧在各方血的应用及涉及到的算法:•、个性化推荐个性化推荐是根据川户的兴趣特点和购买行为,向川户推荐川户感兴趣的信息和商品。随着电子商务规模的不断扩人,商品个数和种类快速增长,顾客需要花费人量的时间才能找到白己想买的商品。这种浏览人量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。
5、为了解决这些问题,个性化推荐系统应运而生。类似的例子有热门网站、文章、音乐、影片等的推荐。下面来介绍-•种协作型过滤方法,它的通常做法是对一人群人进行搜索,并从小找岀与用户品味相近的一小群人。算法会对这些人所偏爱的其他内容进行考杳,并将它们组合起來构造出一个经过排名的推荐列表。人体流稈如下:搜集偏好——寻找相近用户一一推荐物品。比较有名的例子有豆瓣的图书推荐、八宝盒的咅乐推荐等。一个好的推荐系统必须能够基于用户之前的口味和喜好提供相关的精确的推荐,而且这种口味和喜欢的收集必须尽量少的需要用户的劳动。而且推荐的结果必须能够实时计算,这样才能够在
6、用户离开网站之前获得推荐的内容,并且及时的对推荐结果做出反馈。二、聚类分组聚类是一个将数据集划分为若干组或类的过程,并使得同-组内的数据对象具令较高的相似度,而不同组川的数据对象是不相似的。许多领域,包括数据分析、数据挖掘、图像分割、统计学、机器学习其至计址生物学领域都使用了聚类算法。聚类时常被用于数据量很人的应用-I'o比如说按照博客川户所讨论的话题,以及他们所使丿IJ的特殊词汇进行分组。这甲上要介绍两种不同的聚类算法:分级聚类和K-均值聚类。分级聚类通过连续不断地将最为相似的群组两两合并,來构造出一个群组的层级结构。在每次迭代的过程屮,分
7、级聚类算法会计算每两个群组间的距离,并将距离最近的两个群组合并成一个新的群组。这个过程一直重复下去,直到只剩一个群组时则完成分组。但是由于分级聚类每次都要计算群组间的距离,所以计算量比较人。K-均值聚类是一•种完全不同于分级聚类的方法,它首先会随机确定k个屮心位置,然后将各个数据项分配给最近的屮心点。等到分配完成之后,聚类中心会发生变化,会转移到分配给该屮心的所有节点的平均位置处。然后,整个分配过程重新开始。这样一•玄持续下去,直到分配过稈不再发生变化为止。这有点类同于组合优化屮的P-中值问题和P-屮心问题。假设有n个数据项,我们要把这n个数
8、据项进行聚类分组,日标是所有数据项到它分配的聚类屮心的距离之和最小。那么如何聚类呢?这时候就是p不定的屮值问题,我们可以采取遗传算法、变邻域搜索算法等方法去解决。聚
此文档下载收益归作者所有