遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

安妮 2018-03-19 12:08:43 来源：量子位

原作：Julien Despois

安妮编译自 Hackernoon

量子位出品 | 公众号 QbitAI

不要再向你的机器学习模型里喂垃圾了！

在这篇文章中，身兼AI工程师/音乐家/围棋爱好者多职的“斜杠青年”Julien Despois给出了数据科学中需要避免的6大错误。

量子位将全文编译整理如下：

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

简介

身为一名数据科学工作者，你应该听说过一句话：

你的结果会和你的数据一样好。

很多人试图通过提升模型来弥补不太理想的数据集。这等同于你的旧车因为用了廉价汽油性能不好，但你买了一辆豪华跑车。很明显药不对症嘛！

在这篇文章中，我会讲一讲如何通过优化数据集提升模型结果，并将以图像分类任务为例进行说明，但这些tips可被应用在各种各样的数据集中。

今天的正餐，正式开始——

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

问题一：数据集太小

如果数据集太小，模型将没有足够样例概括可区分特征。这将使数据过拟合，从而出现训练误差（training error）低但测试误差（test error）高的情况。

解决方案1：

去收集更多数据吧~尝试找到更多和原始数据集来源相同的数据，如果图像很相似或者你追求的就是泛化，也可用其他来源的数据。

小贴士：这并非易事，需要你投入时间和经费。在开始之前，你要先分析确定需要多少额外数据。将不同大小的数据集得出的结果做比较，然后思考一下这个问题。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 数据集中数据量和错误率的关系

解决方案2：

通过为同一张图像创建多个细微变化的副本来扩充数据，可以让你以非常低的成本创造很多额外的图像。你可以试着裁剪、旋转或缩放图片，也可以添加噪音、模糊、改变图片颜色或遮挡部分内容。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 一张图片的各种变化

不管怎么操作吧，只需保证这些数据仍代表相同类就好了。

虽然这种操作很厉害，但仍不如收集更多原始数据效果好。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 处理后图像仍被分类为猫

小贴士：这种“扩充术”不适合所有问题，比如如果你想分类黄柠檬和绿柠檬，就不要调颜色了嘛~

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

数据集太小的问题解决后，第二个问题来了——

问题二：分类质量差

这是个简单但耗时的问题，需要你浏览一遍数据集确认每个样例的标签打得对不对。

除此以外，一定为你的分类选择合适的粒度（granularity）。基于要解决的问题，来增加或减少你的分类。

比如，要识别猫，你可以用全局分类器先确定它是动物，之后再用动物分类器确定它是一只小猫。一个大型的模型能同时做到这两点，但分起类来也更加困难。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 小猫的分类过程

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

问题三：数据集质量差

就像前言中说的那样，数据质量差会导致结果的质量差。

可能你的数据集中有一些样例离达标真的很远，比如下面这几张图像。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 三张不合格的猫咪图像样例

这些图像会干扰模型的正确分类，你需要将这些图像在数据集中剔除。

虽然是个漫长枯燥的过程，但对结果的提升效果很明显。

另一个常见问题是，数据集可能是由与实际应用程序不匹配的数据组成的。如果图像来自完全不同来源，这个问题可能尤为严重。

解决方案：先思考一下这项技术的长期应用，因为它关系到获取生产中的数据。尝试用相同的工具查找/构建一个数据集。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 使用与实际应用差别太大的数据训练模型非常不明智

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

问题四：分类不平衡

如果每个分类的样例数量与其他类别数量差距太大，则模型可能倾向于数量占主导地位的类，因为它会让错误率变低。

解决方案1：

你可以收集更多非代表性的分类。然而这通常需要花费时较多间和金钱，也可能根本不可行。

解决方案2：

对数据进行过采样/降采样处理。这意味着你可能需要从那些比例过多的分类中移除一些样例，也可以在比例较少的类别中进行上面提到过的样例扩充处理。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 先扩充样例不足的分类（猫咪），这将使类别的分布更平滑

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

问题五：数据不平衡

如果你的数据没有专门的格式，或者它的值没有在特定的范围，模型处理起来可能很困难。如果图像有特定的纵横比或像素值，得到的结果会更好。

解决方案1：

裁剪或拉伸数据，使其与其他样例的格式相同，如下图所示。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

△ 裁剪和拉伸是改善格式的两种方法

解决方案2：

将数据规范化，使每个样例在相同的值范围内。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

问题六：没有验证或测试

数据集被清理、扩充并打上标签后，你就需要把它们分个组了。

许多数据研究人员会将这些数据分成两组：80%用于训练，20%用于测试，这将会使发现过拟合变容易。

然而，如果你在同一个测试集上尝试多个模型，情况则有所不同。选择测试精度的最佳模型，实际上是对测试集进行过拟合处理。

解决方案：

将数据集分为训练、验证和测试三组，这可以保护你的测试集，防止它因为所选的模型而过拟合。那这个过程就变成了:

在训练集上训练模型
在验证集上测试它们，确保它们没有过拟合
选择最佳模型，并用测试集测试，看看你的模型准确性有多高。

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

注意：提醒一句，记得经常用整个数据集去训练模型，数据越多，效果越好。

总结

最后，送广大数据科学工作者一句N字箴言：

拥有最好模型的人不是赢家，拥有最好数据的人才是。

入门教程数据集机器学习

安妮

遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

简介

问题一：数据集太小

问题二：分类质量差

问题三：数据集质量差

问题四：分类不平衡

问题五：数据不平衡

问题六：没有验证或测试

总结

相关阅读

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

纯新手自学入门机器/深度学习指南（附一个月速成方案）

腾讯优图CVPR中标论文：不靠硬件靠算法，暗光拍照也清晰

AI博弈论：DeepMind让智能体在非对称博弈中找纳什均衡

国外有个小姐姐给29篇经典机器学习论文写了总结｜资源

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬