经验分享-半路出家的我如何从0到1学习机器学习.doc

经验分享-半路出家的我如何从0到1学习机器学习.doc

ID:28118343

大小:272.50 KB

页数:16页

时间:2018-12-08

经验分享-半路出家的我如何从0到1学习机器学习.doc_第1页
经验分享-半路出家的我如何从0到1学习机器学习.doc_第2页
经验分享-半路出家的我如何从0到1学习机器学习.doc_第3页
经验分享-半路出家的我如何从0到1学习机器学习.doc_第4页
经验分享-半路出家的我如何从0到1学习机器学习.doc_第5页
资源描述:

《经验分享-半路出家的我如何从0到1学习机器学习.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、经验分享:半路出家的我如何从0到1学习机器学习  作为一个数学系出身,半路出家开始搞机器学习的人,在学习机器学习的过程中自然踩了无数的坑,也走过很多本不该走的弯路。于是很想总结一份如何入门机器学习的资料,也算是为后来人做一点点微小的贡献。  ▌前言  在2016年3月,随着AlphaGo打败了李世乭,人工智能开始大规模的进入人们的视野。不仅是互联网的工程师们很关注人工智能的发展,就连外面的吃瓜群众也开始关注人工智能对日常生活的影响。随着人脸识别能力的日益增强,个性化新闻推荐App的横行天下,TensorFlow经验分享:半路出

2、家的我如何从0到1学习机器学习  作为一个数学系出身,半路出家开始搞机器学习的人,在学习机器学习的过程中自然踩了无数的坑,也走过很多本不该走的弯路。于是很想总结一份如何入门机器学习的资料,也算是为后来人做一点点微小的贡献。  ▌前言  在2016年3月,随着AlphaGo打败了李世乭,人工智能开始大规模的进入人们的视野。不仅是互联网的工程师们很关注人工智能的发展,就连外面的吃瓜群众也开始关注人工智能对日常生活的影响。随着人脸识别能力的日益增强,个性化新闻推荐App的横行天下,TensorFlow等开源工具被更多的人所知晓,于是

3、就有越来越多的人开始逐步的转行到人工智能的领域,无论是计算机出身的后台开发人员,电子通信等工程师,还是数学物理等传统理科人士,都有人逐步开始转行到机器学习的领域。  作为一个转行的人,自然要介绍一下自己的专业背景。笔者在本科的时候的专业是数学与应用数学,外行人可以理解为基础数学。在博士期间的研究方向是动力系统和分形几何,所做的还是基础数学,和计算机的关系不大。  如果有人想了解笔者究竟在做什么科研的话,可以参考知乎文章“复动力系统(1)---Fatou集与Julia集”。至于机器学习的话,在读书期间基本上也没接触过,甚至没听说

4、过还有这种东西。不过在读书期间由于专业需要,C++之类的代码还是能够写一些的,在UVAOJ上面也留下过自己的足迹。  ▌2015年:尝试转型  行路难,行路难,多歧路,今安在?  在2015年毕业之后机缘巧合,恰好进入腾讯公司从事机器学习的相关工作。不过刚进来的时候压力也不小,现在回想起来的话,当时走了一些不该走的弯路。用李白的《行路难》中的诗词来描述当时的心情就是“行路难,行路难,多歧路,今安在?”  在2015年10月份,第一次接触到一个不大不小的项目,那就是XX推荐项目。而这个项目是当时组内所接到的第二个推荐项目,当年的

5、推荐系统还是搭建在大数据集群上的,完全没有任何说明文档和前端页面,当时的整个系统和全部流程复杂而繁琐。不过在接触这个系统的过程中,逐步开始学习了Linux操作系统的一些简单命令,SQL的使用方法。  了解SQL的话其实不只是通过了这个系统,通过当时的ADS值班,帮助业务方提取数据,也把SQL的基础知识进一步的加深了。SQL的学习的话,在2015年读过两本非常不错的入门教材《SQL基础教程》与《HIVE编程指南》。Linux的相关内容阅读了《Linux命令行与Shell脚本编程大全》之后也就大概有所了解了。于是工作了一段时间之后

6、,为了总结一些常见的SQL算法,写过一篇文章“HIVE基础介绍”。  在做推荐项目的过程中,除了要使用SQL来处理数据,要想做机器学习,还需要了解常见的机器学习算法。当年接触到的第一个机器学习算法就是逻辑回归(LogisticRegression),既然提到了机器学习的逻辑回归,无法避免的就是交叉验证的概念,这个是机器学习中的一个基本概念。  通过物品的类别属性和用户的基本特征来构造出新的特征,例如特征的内积(innerproduct)。后来在学习的过程中逐步添加了特征的外积和笛卡尔积,除了特征的交叉之外,还有很多的方法来构造

7、特征,例如把特征标准化,归一化,离散化,二值化等操作。除了构造特征之外,如何判断特征的重要性则是一个非常关键的问题。  最常见的方法就是查看训练好的模型的权重,另外还可以使用Pearson相关系数和KL散度等数学工具来粗糙的判断特征是否有效。在此期间也写过一些文章“交叉验证”,“特征工程简介”,“KL散度”。关于特征工程,除了阅读一些必要的书籍之外,最重要的还是要实践,只有实践才能够让自己的经验更加丰富。  在做推荐系统的时候,之前都是通过逻辑回归算法(LogisticRegression)离线地把模型的权重算好,然后导入线上

8、系统,再进行实时的计算和打分。除了离线的算法之外,在2015年的12月份了解到了能够在线学习的FTRL算法。调研了之后在2016年初在组内进行了分享,同时在zr9558.com上面分享了自己的总结,最近把该文章转移到自己的微信公众号上“FollowtheRegularized

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。