机器学习

机器学习

发布日期: 2018-11-21

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　———摘自《维基百科》

### 分类 - 监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的监督学习算法：`回归分析`和`统计分类`
- 无监督学习与监督学习相比，训练集没有人为标注的结果常见的无监督学习算法：`生成对抗网络（GAN）`、`聚类`
- 半监督学习
- 增强学习

算法

朴素贝叶斯算法半朴素贝叶斯算法贝叶斯网算法

ID3算法

感知器支持向量机集成学习AdaBoost 降维与度量学习聚类

### 模型评估方法

过拟合
欠拟合

#### 留出法 `留出法（hold-out）`：将`样本数据D`划分成两个互斥的集合，其中一个作为`训练集S`，另一个作为`测试集T`。在`S`上训练出模型后，用`T`来评估其测试误差，作为对泛化误差的评估
#### 交叉验证法 `交叉验证法（）`：将`样本数据划D`划分为k个大小相似的互斥子集。每个子集$D_j$
#### 自助法 `自助法（）`：

参考周志华《机器学习》 wikipedia-机器学习

Gumihoy

https://gumihoy.github.io/2018/11/21/ji-qi-xue-xi/