机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
———摘自《维基百科》
### 分类 - 监督学习 从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。 监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。 训练集中的目标是由人标注的 监督学习算法:`回归分析`和`统计分类`
- 无监督学习 与监督学习相比,训练集没有人为标注的结果 常见的无监督学习算法:`生成对抗网络(GAN)`、`聚类`
- 半监督学习
- 增强学习
算法
感知器 支持向量机 集成学习AdaBoost 降维与度量学习 聚类
### 模型评估方法
- 过拟合
- 欠拟合
#### 留出法 `留出法(hold-out)`:将`样本数据D`划分成两个互斥的集合,其中一个作为`训练集S`,另一个作为`测试集T`。在`S`上训练出模型后,用`T`来评估其测试误差,作为对泛化误差的评估
#### 交叉验证法 `交叉验证法()`:将`样本数据划D`划分为k个大小相似的互斥子集。每个子集$D_j$
#### 自助法 `自助法()`:
参考 周志华《机器学习》 wikipedia-机器学习