2017-02-27

机器学习系列—1.机器学习介绍

1. 基本概念
2. 学习过程与三要素

当我们晚上抬头看天空的时侯，如果看到许多的星星，我们通常会认为明天会是个好天气。我们之所以能做出有效的预判，是因为我们过往积累的经验，人类可以通过对经验的总结利用，然后做出有效的预判，那么计算机可以吗？机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”的形式存在。因此，机器学习研究的内容就是关于在计算机上从数据中产生“模型”的算法。对于机器学习的定义，业界主要有两种：

Arthue Samuel ：Field of study that gives computers the ability to learn without being explicitly programmed.(在没有明确训练的条件下，教给计算机学习的能力 )

Tom Mitchell:A computer program is said to learn from experience E with respect to some task T and some performance measure P. if its performance on T as measured by P.improves with experience E.(计算机程序从经验E中学习任务T并用度量 P来衡量性能。条件是它由 P定义的关于T的性能随着经验 E而提高)

基本概念

要进行机器学习，首先要有数据集（data set），从数据中学得模型（model）（结果）的过程称为“学习”（learning）或“训练”（training），这个过程通过执行某个学习算法来完成。模型指全局性结果（例如一颗决策树），模式（pattern）指局部性结果（例如一条规则）。训练过程中使用的数据称为“训练集”（training set）。学得模型对应关于数据的某种潜在的规律也称为“假设（hypothesis）”。有时也将模型称为“学习器”（learner）。学得模型后，使用其进行预测的过程称为“测试”（testing）。被预测的样本称为“测试样本”（testing sample）。
根据训练数据是否拥有标记信息，机器学习算法主要可分两类：
第一类是监督学习（supervised learning）：是由我们教计算机如何做事情，其代表就是分类和回归以及标注。
其中监督学习问题类别是由输入变量X与输出变量Y的不同类型组合决定：

回归问题：输入变量与输出变量均为连续变量的预测问题
分类问题：输出变量为有限个离散变量的预测问题
标注问题：输入变量与输出变量均为变量序列的预测

第二类是非监督学习（unsupervised learning）：我们让计算机自己学习，其代表就是聚类
除此之外，还有半监督学习（semi-supervised learning）和强化学习（reinforcement learning）
机器学习的目标是使得学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好，学得模型适用于新样本的能力，称为“泛化”（generalization）能力。

学习过程与三要素

实现机器学习的步骤如下：

得到一个有限的训练数据集合
确定包含所有可能的模型的假设空间，即学习模型的集合
确定模型选择的准则，即学习的策略
实现求解最优模型的算法，即学习的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

总的来说就是三要素：模型、策略、算法

模型

学习首先要考虑的问题就是学习什么样的模型。在监督学习过程中，模型的假设空间包括所有可能的条件概率或决策函数。其中如果决策函数是输入变量的线性函数，那么模型的假设空间就是所有线性函数构成的集合；假设空间中的模型一般有无穷多个。

策略

有了模型的假设空间，接着需要考虑的是按照什么样的准则学习或者选择最优的模型。这里主要涉及到两个概念：损失函数和风险函数。
1. 损失函数（loss function）或代价函数（cost function）
度量模型一次预测的好坏，记作L(Y,f(X))
常用的损失函数有一下几种：

损失函数值越小，模型就越好，由于模型的输入输出遵循联合分布P(X,Y)，所以损失函数的期望，即风险函数（risk function）或期望损失（expected loss），也叫期望风险。这是理论上模型关于联合分布P(X,Y)的平均意义下的损失。

2. 风险函数：度量平均意义下模型预测好坏
模型f(x)关于训练数据集的平均损失称为经验风险或经验损失

期望风险Rexp(f)是模型关于联合分布的期望损失，经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷大时，经验风险趋于期望风险。由于联合分布P(X,Y)未知，所以Rexp无法直接计算。所以可以用经验风险估计期望风险。
但是由于训练样本数有限，这种估计方式并不理想，需要对经验风险进行矫正。
根据经验风险最小化策略，经验风险最小的模型是最优的模型，因此可以按照经验风险最小化求解最优模型。

当样本容量足够大时，具有较好的效果。当样本容量很小时，效果未必很好，会产生过拟合现象。为防止经验风险最小化中的过拟合问题，提出了结构风险最小化的策略。结构风险最小化等价于正则化，即在经验风险基础上引入表示模型复杂度的正则化或惩罚项

J(f)表示模型复杂度，是定义在假设空间F上的泛函。模型f越复杂J(f)越大，反之越小；复杂度表示了对复杂模型的惩罚。J(f)前面的字符是系数，用以权衡经验风险和模型复杂度。根据上述公式可以看出，结构风险小时需要经验风险和模型复杂度同时小的。