1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409

1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409

ID:34202546

大小:166.00 KB

页数:7页

时间:2019-03-04

1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409_第1页
1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409_第2页
1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409_第3页
1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409_第4页
1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409_第5页
资源描述:

《1812网页优化策略模糊c均值(fcm)聚类算法的研究20050409》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、..网页优化策略的模糊C均值(FCM)聚类算法研究1王玉龙叶新铭李秀华(内蒙古大学计算机学院呼和浩特010021)摘要在对Web站点进行优化时,为了降低成本,往往需要在不改变硬件和网络配置的情况下提高网站的性能。此时,对构成网站的网页的修改就成为提高站点性能的主要途径。对网页的访问速度的测量已有很多成熟的方法,但是如何根据测试的结果指定合理的优化策略却鲜有论述。本文使用FCM算法对测试结果和网站日志进行聚类分析,从而得到一个良好的优化策略。关键词Web,优化,模糊C均值(FCM)聚类ResearchonfuzzyC-meansc

2、lusteringalgorithminWebPageoptimizationstrategyWangYu-LongYeXin-MingLiXiu-Hua(CollegeofComputerScience,InnerMongoliaUniversity,Huhhot010021)AbstractWebpageoptimizationisaneffectivemethodtoimproveWebapplicationperformance.BeforeweoptimizeWebPageswemustknowwhichonesnee

3、doptimizationmost.ThispaperputsforwardamethodwhichusesfuzzyC-meansclusteringalgorithmtogettheclustercentersofdifferentWebpagegroupsandamembershipmatrixinordertoclassifyWebPages.Withthehelpoftheclustercentermatrixandthemembershipmatrix,wecanpickouttheWebpageswhoseopti

4、mizationwouldleadtoagiantimprovementinperformanceandfurtherprovideadvicesonhowtooptimizethoseWebpages.KeywordsWeb,optimize,fuzzyC-means(FCM)clustering....1引言电子商务和电子政务的快速发展使得对Web应用的性能提出更高的要求。对于Web应用性能瓶颈的处理也不再仅仅在应用开发阶段或集成测试时才进行。如何才能持续的提供高速的访问成为电子商务/政务开发商和系统维护人员亟待解决的问题。

5、消除站点的性能瓶颈是提高站点性能的总策略。然而具体施行方法的不同却会导致完全不同的结果。从投入回报率的角度出发优化网页较之增加硬件资源和网络配置更合适,因此使用广泛。然而,一个电子商务/政务网站可能包含成百上千个网页,如果盲目的进行优化很可收稿日期:2005-04-10;修回日期:2005-05-28基金项目:国家自然基金项目(60263002),内蒙古科技攻关项目(2002061002)能事倍功半。实践证明,对20%的网页的优化往往可以取得80%的性能提高。如何找到这20%的网页是本文要解决的主要问题。本文根据网页的首次访问时

6、间、二次访问时间、网页的访问频率和网页响应体大小等数据,使用FCM算法,对网页进行聚类分析,从而确定一个合理的优化策略。2基本概念定义1(聚类)聚类就是将数据对象分组成为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大[1]。....定义2(模糊C均值聚类算法)模糊C均值(FCM)聚类算法首先由Dunn与1974年提出,并由Bezdek与1981年改进[2].该算法能自动对数据对象进行分类并求出聚类中心和每个数据点的隶属度,使得非相似性指标的目标函数达到最小,从而决定每个数据点的归属。定义3(网页

7、首次访问时间)从客户端第一次访问该网页所需时间,是访问该网页所发出的所有HTTP请求的响应时间的总和。定义4(网页二次访问时间)在不清除浏览器缓存的情况下,从客户端再次访问该网页所需时间,是访问该网页所发出的所有HTTP请求的响应时间的总和。定义5(网页访问频率)指定时间段内该网页被用户访问的次数。定义6(网页响应包大小)对该网页的请求进行应答的所有HTTP响应包大小的总和,单位为字节。对于哪些网页需要进行优化不应由单一的指标决定。例如,对于访问速度慢但是访问频率极低的网页的优化就不是最迫切的。而对于首次访问速度慢,二次访问速度

8、快的网页,也不一定需要优化。同时,最需要优化的网页的各项指标需要满足哪些条件也无法事先准确确定。因为没有一个绝对的指标可以用来判断哪些网页的优化对网站性能的提高的贡献度最大,所以我们采用模糊C均值聚类算法对所有被测网页进行聚类,从中推断出优化优先级高的网页,从而

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。