搜索引擎核心技术解密

搜索引擎核心技术解密

ID:4250000

大小:185.89 KB

页数:6页

时间:2017-11-30

搜索引擎核心技术解密_第1页
搜索引擎核心技术解密_第2页
搜索引擎核心技术解密_第3页
搜索引擎核心技术解密_第4页
搜索引擎核心技术解密_第5页
资源描述:

《搜索引擎核心技术解密》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、技术成就梦想搜索引擎核心技术解密经过十几年的发展,搜索引擎已经成为互联网的重要入口之一,全球互联网上访问量最大的十个网站之一Twitter联合创始人埃文.威廉姆斯提出了“域名已死轮”:好记的域名不再重要,因为人们会通过搜索进入网站。搜索引擎的排名对于中小网站流量来说至关重要了,了解搜索引擎简单界面背后的技术原理其实对很多人都很重要授课对象:一、对搜索引擎核心算法有兴趣的技术人员1、搜索引擎的整体框架是怎样的?包含哪些核心技术?2、网络爬虫的基本架构师什么?常见的爬取策略是什么?什么是暗网爬取?如何构建分布式爬虫?百度的阿拉丁计划是3、什么是倒排索引?如何对倒排索引进行

2、数据压缩?4、搜索引擎如何对搜索结果排序?5、什么是向量空间模型?什么是概率模型?什么是BM25模型?什么是机器学习排序?它们之间有何异同?6、PageRank和HITS算法是什么关系?有何异同?SALSA算法是什么?Hilltop算法又是什么?各种链接分析算法之间是什么关系?7、如何识别搜索用户的真实搜索意图?用户搜索目的可以分为几类?什么是点击图?什么是查询会话?相关搜索是如何做到的?8、为什么要对网页进行去重处理?如何对网页进行去重?哪种算法效果较好?9、搜索引擎缓存有几级结构?核心策略是什么?10、什么是情境搜索?什么是社会化搜索?什么是实时搜索?二、对云计算

3、与云存储有兴趣的技术人员1、什么是CAP原理?什么是ACID原理?它们之间有什么异同?2、Google的整套云计算框架包含哪些技术?Hadoop系列和Google的云计算框架是什么关系?3、Google的三驾马车GFS、BigTable、MapReduce各自代表什么含义?是什么关系?4、Google的咖啡因系统的基本原理是什么?5、Google的Pregel计算模型和MapReduce计算模型有什么区别?6、Google的Megastore云存储系统和BigTable是什么关系?7、亚马逊公司的Dynamo系统是什么?@DataGuru专业数据分析社区网址:edu.

4、dataguru.cn1技术成就梦想8、雅虎公司的PNUTS系统是什么?9、Facebook公司的Haystack存储系统适合应用在什么场合?三、从事搜索引擎优化的网络营销人员及中小网站站长从事搜索引擎优化的网络营销人员及中小网站站长搜索引擎的反作弊策略是怎样的?如何进行优化避免被认为是作弊?搜索引擎如何对搜索结果排序?链接分析和内容排序是什么关系?什么是内容农场?什么是链接农场?它们是什么关系?什么是Web2.0作弊?有哪些常见手法?什么是SpamRank?什么是TrustRank?什么又是BadRank?它们是什么关系?咖啡因系统对网页排名有何影响?课程大纲:第一

5、课:初识搜索引擎,了解其技术架构1、按照各大搜索引擎商业公司使用的技术为依据对搜索引擎进行时代划分2、讲解搜索引擎的三大实现目标3、讲解搜索引擎的三大核心问题及技术发展4、详细讲解搜索引擎的技术架构第二课:讲解网络爬虫1、讲解通用爬虫框架2、讲解通过哪些特征来判断一个网络爬虫是否优秀3、详细讲解网络爬虫的抓取策略4、详细讲解网络爬虫对网页更新策略5、详细讲解网络爬虫的暗网抓取6、详细讲解分布式爬虫第三课:讲解搜索引擎索引1、讲解单词--文档矩阵、倒排索引基本概念、倒排索引简单实例2、讲解单词词典:哈希加链表、树形结构、3、讲解两遍文档遍历法、排序法、归并法、动态索引4

6、、讲解索引更新策略:完全重建策略、在合并策略、原地跟新策略、@DataGuru专业数据分析社区网址:edu.dataguru.cn2技术成就梦想5、讲解查询处理:一次一文档、一次一单词、跳跃指针、多字段索引第四课:讲解索引压缩1、讲解词典压缩2、讲解倒排列表压缩算法3、讲解文档编号重排序4、讲解静态索引裁剪第五课:检索模型与搜索排序1、讲解布尔模型2、讲解向量空间模型3、讲解概率检索模型4、讲解语言模型方法5、讲解机器学习排序第六课:讲解链接分析1、讲解web图2、讲解随机游走模型、子集传播模型、链接分析算法之间的关系3、讲解PageRank算法4、讲解HITS算法5

7、、讲解SALSA算法6、讲解主题敏感PageRank7、讲解Hilltop算法第七课:云存储与云计算1、讲解云存储与云计算概述2、讲解CAP原理3、讲解Google的云存储与云计算架构4、讲解google文件系统GFS5、讲解BigTable存储模型6、讲解Map/Reduce云计算模型@DataGuru专业数据分析社区网址:edu.dataguru.cn3技术成就梦想第八课:讲解网页反作弊1、讲解内容作弊2、讲解链接作弊3、讲解网页隐藏作弊4、讲解Web2.0作弊方法5、讲解反作弊技术的整体思路6、讲解通用链接反作弊方法7、讲解专用链接反作弊技术第

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。