欢迎来到天天文库
浏览记录
ID:22737939
大小:57.50 KB
页数:8页
时间:2018-10-31
《百度解密:李彦宏背后的蜘蛛侠》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、百度解密:李彦宏背后的蜘蛛侠 李彦宏的细腻与心机表现在一本书上。 上市后的百度已有近700名员工,据说他们均可以免费得到老板李彦宏在创立百度之前写的一本200多页的小册子———《硅谷商战》。当然,百度员工中真正读完这本书的可能微乎其微。 这本被包装成章回体小说的文本,说它是小说肯定有些牵强,因为它没有故事也没有结构。但它确实可以作为时下急欲成为互联网从业人员的一本上岗前阅读的通俗手册。 其实,这是李彦宏在美国读书期间写的一本“技术”笔记,其纪录时间是1994年至1998年。当时的李彦宏辗转美国几大IT公司,埋头打工与抬头想事是在美国
2、学计算机专业的中国留学生通常会走的谋生道路。在他们身边,平均每5天就有一家硅谷公司股票上市,每24小时就造就62个百万美元的富翁。 李彦宏这一批在1990年代初、中期降落到美国的中国学生,为数不少的在几年后回国创业———拷贝硅谷模式。 从书中内容可以看出,李彦宏在技术层面没有特别的偏好,他关注的东西很宽泛:从浏览器大战、搜索引擎、网上服务引发的电子媒体战,再到SUN的JAVA与IBM、甲骨文、微软的网络计算机竞争……此时的李彦宏显然还没有找到方向,所以他看到什么就纪录什么。 可能是命运注定。在Infoseek(全球第一批搜索引擎服务商
3、)工作期间,李彦宏在澳大利亚参加一次学术研讨会时,在会议室的板报上贴了一个小纸条,希望与有兴趣研究搜索引擎的大腕过招。就是这张纸条,吸引来了Google的创始人谢尔盖·布林与拉里·佩奇。当然,他们还是穷大学学生。 当时,李彦宏与这两位后来的“搜索引擎巨匠”交流了什么,尚不重要,因为这个领域的风向标是雅虎、Infoseek、Excite和Lycos。 几年之后,李彦宏回到中国创立的公司纳斯达克上市,与Google一样,获得前所未有的追捧———上市第一天就跃入股价超百美元的行列。 李彦宏交了什么运?他那张通常挂着漫不经心笑意的脸,很少有激
4、愤或是夸张的表情。有员工私下称李为“唐僧”,并不是意味着他管理上的软弱、和气,而是因为他对有些事情交代得过于琐碎,也就是通俗的“唠叨”。 可以说,李彦宏创立百度的前期准备是从他写这本书开始的。李彦宏最为“唠叨”的环节就是两个字:“技术”。 技术四足 如果有人当面说,百度的客户体验不如Google,得到的回应会是什么? 与李彦宏一起参与公司创立的百度CTO刘建国可能会以温和的方式表达他的愤怒。 “上市之后,百度接下来最重要的任务之一就是不断地优化搜索技术,给用户提供更丰富的用户体验。”刘建国说。 通常意义上说,搜索技术包括四个
5、环节,网页抓取、超链分析、网页检索和搜索服务。这是搜索技术的“四足”,无论百度、Google,还是雅虎用的都是类似的技术。“百度之所以成功,是在相似技术下为用户呈现了更优的结果。”刘建国说。 一个显而易见的例子是,Google需要对全球数以百亿计的网页进行更新。而网页数量如果增加10倍,其抓取难度将增加上千倍。这样,Google在中文网页更新速度方面就远不及百度。刘建国认为:“在中文网页的更新速度方面,百度因专注而超越对手。” 业内人士指出:由于Google的服务器远在美国,不仅其响应速度较慢,而且其IP地址容易因为各种原因被封杀,这也
6、使得Google的用户体验不如百度的用户体验。 “超链(hyperlink)分析”更是百度的拿手活。所谓超链分析,即是对网页之间的相关性进行评价。李彦宏早在道琼斯工作时,就对超链分析技术进行了研究,并拥有其中几项专利。 “超链分析涉及许多对中文的理解,包括对词汇、语法的理解。如果对中文的理解出现偏差,那么分析结果就会谬之千里。搜索结果不准确,就会伤害用户的‘感情体验’,最终导致网民流失。”刘建国这样分析。 从2000年开始,百度就不断积累自己的语料库,包括与人民日报等权威中文机构合作,使用人民日报的语料库。“丰富的语料库来自于百度的积
7、累,百度每天都要处理上千万中文网页,处理中文网页的过程实际是对中文词汇积累的过程。” 在网页检索方面,经验积累至关重要。“百度有专门的团队进行中文语料的分析,专门研究中文切词。有经验的技术人员凭经验就能分析出什么样的链接是用户最需用的链接。竞争对手要培养出这样一个团队,至少得两年时间。因为专注的百度花了四年。”刘建国一语道破天机。 搜索服务则更为琐碎。百度为了满足各种用户不同的需求,专门设立了一个流程:根据市场部门的调查,产品管理部门提出需求,技术研发部门则拿出实现这种需求的技术方案,最后进行检测,检测如有问题再由技术部门进行优化。
8、 作弊网站的 “为什么屏蔽了我的网站?”刘建国经常会接到这样的质询。这样的来自一些个人网站,由于存在作弊痕迹,百度不再把这些网站纳入搜索范围。 “这样的每天有多少个,不计其
此文档下载收益归作者所有