机器学习系列：概览

阅读量：5122 次

发布时间：2019-06-13

本文共 5613 字，大约阅读时间需要 18 分钟。

-----------------------------------------------------------------------------------------

和机器学习结缘，是因为知乎上一项回答：，回答中关于人工智能的探讨、人类命运的终极思索，深深地触动了我。于是我就想从机器学习为切入点，来系统的研究 AI 这个无限宽广的题目。

我计划将我学习过程中遇到的各种问题、思路和一些有价值的资料分享出来，作为此系列文章的主题内容。本系列文章初步计划分为：工具篇、理论篇和实战篇三大部分，每部分会分别讨论若干相关论题。

不积跬步，无以至千里！

下面就将目前搜集到的学习资料罗列如下，希望对大家有所帮助：

书籍：

公开课：

原文链接：

基本概念

机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

下面从微观到宏观试着梳理一下机器学习的范畴：一个具体的算法，领域进一步细分，实战应用场景，与其他领域的关系。

图1: 机器学习的例子：NLTK监督学习的工作流程图 (source: )

图2: 机器学习概要图 by Yaser Abu-Mostafa (Caltech) (source: )

图3: 机器学习实战：在python scikit learn 中选择机器学习算法 by Nishant Chandra (source: )

图4: 机器学习和其他学科的关系：数据科学的地铁图 by Swami Chandrasekaran (source: )

入门攻略

大致分三类：起步体悟，实战笔记，行家导读

(2013) 作者 -- [起步体悟] 研究生型入门者的亲身经历

-- [起步体悟] 研究生型入门者的亲身经历，尤其要看的建议

(2013) -- [实战笔记] 学霸的学习笔记，看看小伙伴是怎样一步一步地掌握“机器学习”

(2014) Jason Brownlee -- [行家导读] 虽然是英文版，但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。
- （2013）这篇关于机器学习算法分类的文章也非常好
- （2013）这片有中文翻译译者

门主的几个建议
- 既要有数学基础，也要编程实践
- 别怕英文版，你不懂的大多是专业名词，将来不论写文章还是读文档都是英文为主
- [我是小广告][我是小广告]订阅机器学习日报，跟踪业内热点资料。

课程资源

Tom Mitchell 和 Andrew Ng 的课都很适合入门

入门课程

2011 Tom Mitchell(CMU)机器学习

他的《机器学习》在很多课程上被选做教材，有中文版。

Decision Trees

Probability and Estimation

Naive Bayes

Logistic Regression

Linear Regression

Practical Issues: Feature selection，Overfitting ...

Graphical models: Bayes networks, EM，Mixture of Gaussians clustering ...

Computational Learning Theory: PAC Learning, Mistake bounds ...

Semi-Supervised Learning

Hidden Markov Models

Neural Networks

Learning Representations: PCA, Deep belief networks, ICA, CCA ...

Kernel Methods and SVM

Active Learning

Reinforcement Learning 以上为课程标题节选

2014 Andrew Ng (Stanford)机器学习

这就是针对自学而设计的，免费还有修课认证。“老师讲的是深入浅出，不用太担心数学方面的东西。而且作业也非常适合入门者，都是设计好的程序框架，有作业指南，根据作业指南填写该完成的部分就行。”（参见白马同学的入门攻略）"推荐报名，跟着上课，做课后习题和期末考试。(因为只看不干，啥都学不会)。" (参见reyoung的建议）

Introduction (Week 1)

Linear Regression with One Variable (Week 1)

Linear Algebra Review (Week 1, Optional)

Linear Regression with Multiple Variables (Week 2)

Octave Tutorial (Week 2)

Logistic Regression (Week 3)

Regularization (Week 3)

Neural Networks: Representation (Week 4)

Neural Networks: Learning (Week 5)

Advice for Applying Machine Learning (Week 6)

Machine Learning System Design (Week 6)

Support Vector Machines (Week 7)

Clustering (Week 8)

Dimensionality Reduction (Week 8)

Anomaly Detection (Week 9)

Recommender Systems (Week 9)

Large Scale Machine Learning (Week 10)

Application Example: Photo OCR

Conclusion

进阶课程

2013年Yaser Abu-Mostafa (Caltech) Learning from Data -- 内容更适合进阶

The Learning Problem

Is Learning Feasible?

The Linear Model I

Error and Noise

Training versus Testing

Theory of Generalization

The VC Dimension

Bias-Variance Tradeoff

The Linear Model II

Neural Networks

Overfitting

Regularization

Validation

Support Vector Machines

Kernel Methods

Radial Basis Functions

Three Learning Principles

Epilogue

2014年林軒田(国立台湾大学) 機器學習基石 (Machine Learning Foundations) -- 内容更适合进阶，華文的教學講解

When Can Machines Learn? [何時可以使用機器學習] The Learning Problem [機器學習問題] -- Learning to Answer Yes/No [二元分類] -- Types of Learning [各式機器學習問題] -- Feasibility of Learning [機器學習的可行性]

Why Can Machines Learn? [為什麼機器可以學習] -- Training versus Testing [訓練與測試] -- Theory of Generalization [舉一反三的一般化理論] -- The VC Dimension [VC 維度] -- Noise and Error [雜訊一錯誤]

How Can Machines Learn? [機器可以怎麼樣學習] -- Linear Regression [線性迴歸] -- Linear `Soft' Classification [軟性的線性分類] -- Linear Classification beyond Yes/No [二元分類以外的分類問題] -- Nonlinear Transformation [非線性轉換]

How Can Machines Learn Better? [機器可以怎麼樣學得更好] -- Hazard of Overfitting [過度訓練的危險] -- Preventing Overfitting I: Regularization [避免過度訓練一：控制調適] -- Preventing Overfitting II: Validation [避免過度訓練二：自我檢測] -- Three Learning Principles [三個機器學習的重要原則]