机器学习在搜索中的若干应用- 周志华实验室 -百度

机器学习在搜索中的若干应用- 周志华实验室 -百度

ID:43846461

大小:1.38 MB

页数:23页

时间:2019-10-15

机器学习在搜索中的若干应用- 周志华实验室 -百度_第1页
机器学习在搜索中的若干应用- 周志华实验室 -百度_第2页
机器学习在搜索中的若干应用- 周志华实验室 -百度_第3页
机器学习在搜索中的若干应用- 周志华实验室 -百度_第4页
机器学习在搜索中的若干应用- 周志华实验室 -百度_第5页
资源描述:

《机器学习在搜索中的若干应用- 周志华实验室 -百度》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、机器学习在搜索中的若干应用百度王海峰2010年11月6日MLA10,南京内容提要•百度搜索技术概况•机器学习在需求分析中的应用–特征表示–Term重要性计算–实体属性识别–Query分类•其它应用•结束语1/26内容提要•百度搜索技术概况•机器学习在需求分析中的应用–特征表示–Term重要性计算–实体属性识别–Query分类•其他应用•结束语2/26百度产品用户产品商业产品百度用户产品用户通过百度主页,可以瞬间找到相关提供更加完善的搜索体验,的搜索结果,这些结果来自于百度超满足的多样化的搜索需求过百亿的中文网页数据库。搜

2、索技术网页搜索垂直搜索突破性实现网络交易和网络社区的无缝结合;提供表达和交流思想的自由网络通过与品牌商的合作,为电子商务营销提供创空间新的模式和全新的环境、B2C社区产品电子商务通常的搜索引擎需求信息用户展现用户引导和结果展现入口框检索和相关性排序基于文本匹配的所有需求以类似需求分析的形式返回结果网页信息网页索引构建传统网页搜索Crawler抓取网页信息网页抓取和建库互联网5/26基于框计算的新一代搜索引擎6/26需求分析语言分析层数据挖掘算法层海量数据分析平台需求分析海量数据存储平台用户行为网页数据7/26用户需求实例

3、听起来快乐的歌曲令人心情愉快的图片现在几点了电脑中毒了怎么办哪能买到漂亮衣服北京哪能找到女朋友8/26内容提要•百度搜索技术概况•机器学习在需求分析中的应用–特征表示–Term重要性计算–实体属性识别–Query分类•其他应用•结束语9/26Query特征表示•问题定义–用一组特征向量来表示query,需要体现出query语义方面的信息•应用点–语义相关性计算–语义相关query触发–Query分类10/26Query特征表示–TopicModel•Queryterm扩展–基于query的检索结果摘要–基于同sessio

4、n内的query集合–根tf*idf等信息完成term赋权–选取term构成query的扩展特征向量•基于term扩展训练topicmodel•基于topic向量表示query11/26Query中Term重要性•问题描述–将query中的term根据重要程度分成主干、强限定、弱限定和冗余等成分。•应用点–Queryterm赋权–Queryterm省略12/26Query中term重要性计算•问题抽象–Query中term重要程度分类•特征集合–点特征:term表义能力、iqf、词性、实体属性等–边特征:ngram、互信

5、息等•分类方式–两级分类实现13/26命名实体识别•在query中自动识别出人名、地名、机构、品牌、商品等实体•应用点–信息抽取–检索粒度分析–Queryterm赋权14/26命名实体识别方法•问题抽象–基于字粒度的query序列标注•标记集合–4词位(词首、词中、词尾、单字词)与各类实体的组合。例如人名词首、机构词中、地名词尾等。•特征集合–上下文文本特征及特征组合•模型及优化15/26Query分类•Query的分类方式–Query领域分类–主题分类(如:百度知道)–频道query分类(如:视频、图片)•应用点–Qu

6、ery流量分析–分类别的检索需求满足–分类别的推荐16/26Query分类方法–类别体系–数据•数据标注•数据扩充–特征集合•N-gram、位置、扩展、关键词、关键词标签–分类模型•多分类器17/26内容提要•百度搜索技术概况•机器学习在需求分析中的应用–特征表示–Term重要性计算–实体属性识别–Query分类•其他应用•结束语18/26机器学习在网页分析中的应用•网页分类•问题描述–根据主题类别或者结构类别对网页进行分类•应用点–页面赋权策略–网页筛选和过滤19/26机器学习在网页分析中的应用–特征集合•结构特征–页

7、面urlpattern、页面重复性子结构、区域信息位置等•语义特征–标题关键词、正文关键词等•特征处理–特征选择、连续特征离散化等–分类模型20/26机器学习在搜索结果评估中的应用•Query满足度评估–问题抽象•基于用户行为信息,实现query满足情况分类–特征集合–分类模型21/26结束语•数据–网页数据、人工数据、用户数据……•目标函数–面向应用•表示–假设的表示–数据的表示•学习算法–大规模、并行化、高效率22/26

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。