机器学习系列—1.机器学习介绍

Contents

  1. 1. 基本概念
  2. 2. 学习过程与三要素
    1. 2.1. 模型
    2. 2.2. 策略
    3. 2.3. 算法

当我们晚上抬头看天空的时侯,如果看到许多的星星,我们通常会认为明天会是个好天气。我们之所以能做出有效的预判,是因为我们过往积累的经验,人类可以通过对经验的总结利用,然后做出有效的预判,那么计算机可以吗?机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在。因此,机器学习研究的内容就是关于在计算机上从数据中产生“模型”的算法。对于机器学习的定义,业界主要有两种:

  1. Arthue Samuel :Field of study that gives computers the ability to learn without being explicitly programmed.(在没有明确训练的条件下,教给计算机学习的能力 )
  2. Tom Mitchell:A computer program is said to learn from experience E with respect to some task T and some performance measure P. if its performance on T as measured by P.improves with experience E.(计算机程序从经验E中学习任务T并用度量 P来衡量性能。条件是它由 P定义的关于T的性能随着经验 E而提高)


基本概念

要进行机器学习,首先要有数据集(data set), 从数据中学得模型(model)(结果)的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。模型指全局性结果(例如一颗决策树),模式(pattern)指局部性结果(例如一条规则)。训练过程中使用的数据称为“训练集”(training set)。学得模型对应关于数据的某种潜在的规律也称为“假设(hypothesis)”。有时也将模型称为“学习器”(learner)。学得模型后,使用其进行预测的过程称为“测试”(testing)。被预测的样本称为“测试样本”(testing sample)。
根据训练数据是否拥有标记信息,机器学习算法主要可分两类:
第一类是监督学习(supervised learning):是由我们教计算机如何做事情,其代表就是分类和回归以及标注。
其中监督学习问题类别是由输入变量X与输出变量Y的不同类型组合决定:

  1. 回归问题:输入变量与输出变量均为连续变量的预测问题
  2. 分类问题:输出变量为有限个离散变量的预测问题
  3. 标注问题:输入变量与输出变量均为变量序列的预测

第二类是非监督学习(unsupervised learning):我们让计算机自己学习,其代表就是聚类
除此之外,还有半监督学习(semi-supervised learning)和强化学习(reinforcement learning)
机器学习的目标是使得学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好,学得模型适用于新样本的能力,称为“泛化”(generalization)能力。


学习过程与三要素

实现机器学习的步骤如下:

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测或分析

总的来说就是三要素:模型、策略、算法

模型

学习首先要考虑的问题就是学习什么样的模型。在监督学习过程中,模型的假设空间包括所有可能的条件概率或决策函数。其中如果决策函数是输入变量的线性函数,那么模型的假设空间就是所有线性函数构成的集合;假设空间中的模型一般有无穷多个。

策略

有了模型的假设空间,接着需要考虑的是按照什么样的准则学习或者选择最优的模型。这里主要涉及到两个概念:损失函数和风险函数。
1. 损失函数(loss function)或代价函数(cost function)
度量模型一次预测的好坏,记作L(Y,f(X))
常用的损失函数有一下几种:

损失函数值越小,模型就越好,由于模型的输入输出遵循联合分布P(X,Y),所以损失函数的期望,即风险函数(risk function)或期望损失(expected loss),也叫期望风险。这是理论上模型关于联合分布P(X,Y)的平均意义下的损失。

2. 风险函数:度量平均意义下模型预测好坏
模型f(x)关于训练数据集的平均损失称为经验风险或经验损失

期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷大时,经验风险趋于期望风险。由于联合分布P(X,Y)未知,所以Rexp无法直接计算。所以可以用经验风险估计期望风险。
但是由于训练样本数有限,这种估计方式并不理想,需要对经验风险进行矫正。
根据经验风险最小化策略,经验风险最小的模型是最优的模型,因此可以按照经验风险最小化求解最优模型。

当样本容量足够大时,具有较好的效果。当样本容量很小时,效果未必很好,会产生过拟合现象。为防止经验风险最小化中的过拟合问题,提出了结构风险最小化的策略。结构风险最小化等价于正则化,即在经验风险基础上引入表示模型复杂度的正则化或惩罚项

J(f)表示模型复杂度,是定义在假设空间F上的泛函。模型f越复杂J(f)越大,反之越小;复杂度表示了对复杂模型的惩罚。J(f)前面的字符是系数,用以权衡经验风险和模型复杂度。根据上述公式可以看出,结构风险小时需要经验风险和模型复杂度同时小的。

算法

指学习模型的具体计算方法。也为求解最优化问题的算法。如果最优化问题有显示的解析解,即可以直接基于公式求解;如果解析解不存在,需要数值计算的方法求解。