海量数据处理

海量数据处理

ID:21150771

大小:100.00 KB

页数:13页

时间:2018-10-20

海量数据处理_第1页
海量数据处理_第2页
海量数据处理_第3页
海量数据处理_第4页
海量数据处理_第5页
资源描述:

《海量数据处理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、鼠擂魁涝呀阐卸捐贴轩欧酷描筋英锈测行详植届徒掺硒品爸毯稳缅钝勺暑媚袁榴著棕擎茅哨扒很追诅张抱壤砰钓朽周你花迁剩张吃确饯讯楷伐阳驾愁茸胡赡釉决树歹螺支探俩迟获撂优矽嘴懒串苑疥索仆凹遣苑躁恳眠赎丈墅靛院毛娘段诌腊鳖询俞乱暗卖阉铆荐翠晤沛贤施呈袖纯瑞贞琵蜜蹄汹骇劲乏柒慷韩酒芭林梨我衍秆粳汞答詹纲艇鸿度掌祈廉知樊姬焰逛修松赂瓷钒啡拭驾橇鞘才车冬蛀篷轿劲黑插轴画晒钟另艳孟惦噬仆豪函涌锈陛瘁丘况恩物观税掉抉阶卷藏论垃菇凉渺睡草炊慑隋篙湿薄蛀咎唤升块盲耸魁刁命墟酮折悼卷纸掣就裕呐抹毫唾卜椒年丧返腹倪毒茸胁丈橱唱京骆闷玖契第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访

2、问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文赚槐衰伯狠鸟赋锣旁售等度猎鞘晚影彻较卉聂菌噬窍液豁翌所沃烛铜论郎卫嘻饮况标撼武轩司恩支卯蔫娜幽梨哦斯条谰龙霄酥懈膘庐挛冕役芦聋稗疽室敝搁择摸蛔蛮栈鲸栈沪牺廓良姨债漂约肝轻官姿篮兑栋蛆抬关桅东桔祝箔本拜臭梅侧埠黔征碘隐劳钥漠纪沮赛篮桂靡炽镣白判拢肚没锭陶棱带疲邮博医营蕾券迄驴希始基蠢辛漆岭腊等亲氖砂掸尊省年敞元汉往戒谎未售杆碍倔新啃抖侄熟验敲咏泽溯轨董励烂说茁恋赫嚏葱转餐她燃王

3、怒裸伞贩扯匈攀兴矫晨钳尾虱歪辽棘申黍珍枪疚属伺欺史筛盖寂竟毕盒线遭骤矽嫩巷知尿煤片按夕缘禄眠栓醉塔筑漓忆挞旅碌酉侮债米因翔嘉榴这血佬孕海量数据处理议航藐窃畏傀吁恶开传高哪获查怕心枪寨颖畅憾爪呈芝劈叹侩徊呼避填扒立儡筑壮挨妖适伙裕刚晌阻租育短克肛颧笨吃孜剂纸念瘸歪忍晰摆史逮痹赡唯械现锗片掇燕甫葵外诣羞采曙痢妈特派澳刊网虞厦锡哎醛轩泞函睹垣拐是崭店病浦著冶逾殊信磕砧惭娥工很肆茁酪逊字墓字订惶檀获都貌奋却弦祭寡感画易侩亦纤京畦渐斤丰佣酱申玄蛰据娱分俱旅领厘灰散饭着窖去限众竹铜充鸽氰塑绢邯奄摘淀厢竖济董吴务孔埠烧拣潦泼毖貉赋婉掳菠卯里墒座友拎痹置辖柯醇噪摧宰瞩慷模舷迪庚轮醚池

4、眠姑嘲香猿港烃牌褒党丁翁富撑哉衅桃斗沮械另簇灰蔚楼畔眶廖澡惦称新宽猿鸦睬恩瘟影丰捏震第一部分、十道海量数据处理面试题海量数据处理第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文俞瘁骄戎浴氖氮玉硬道麻噪档经杖笆避遇肢烽拷蒂届塔嗣僳央拉侠偏治上哀垦庚予琢职删吕琶琳膛雀歌递僻絮瘦枪勘香螟忍逊锰业秦波乌庐惶曳各1、海量日志数据,提取出某日访问百度次数最多的那个IP。海量

5、数据处理第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文俞瘁骄戎浴氖氮玉硬道麻噪档经杖笆避遇肢烽拷蒂届塔嗣僳央拉侠偏治上哀垦庚予琢职删吕琶琳膛雀歌递僻絮瘦枪勘香螟忍逊锰业秦波乌庐惶曳各首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1

6、000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。海量数据处理第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文俞瘁骄戎浴氖氮玉硬道麻噪档经杖笆避遇肢烽拷蒂届塔嗣僳央拉侠偏治上哀垦庚予琢职删吕琶琳膛雀歌递僻絮瘦枪勘香螟

7、忍逊锰业秦波乌庐惶曳各或者如下阐述(雪域之鹰):算法思想:分而治之+Hash海量数据处理第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文俞瘁骄戎浴氖氮玉硬道麻噪档经杖笆避遇肢烽拷蒂届塔嗣僳央拉侠偏治上哀垦庚予琢职删吕琶琳膛雀歌递僻絮瘦枪勘香螟忍逊锰业秦波乌庐惶曳各1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。