原创

机器学习、深度学习3大本质区别了解吗?机器学习有哪些数据偏差

时间：2022-12-01 10:15:01

关键字：机器学习深度学习数据偏差

手机看文章

扫描二维码
随时随地手机看文章

[导读]在这篇文章中，小编将对机器学习的相关内容和情况加以介绍以帮助大家增进对它的了解程度，和小编一起来阅读以下内容吧。

在这篇文章中，小编将对机器学习的相关内容和情况加以介绍以帮助大家增进对它的了解程度，和小编一起来阅读以下内容吧。

一、机器学习、深度学习3大本质区别

1、数据相关性

深度学习与传统机器学习最重要的区别是，随着数据量的增加，其性能也随之提高。当数据很小的时候，深度学习算法并不能很好地执行，这是因为深度学习算法需要大量的数据才能完全理解它。

随着数据量的增大，深度学习的性能会越来越好，而传统机器学习方法性能表现却趋于平缓;但传统的机器学习算法在数据量较小的情况下，比深度学习有着更好的表现。

2、硬件依赖性

深度学习算法在很大程度上依赖于高端机器，而传统的机器学习算法可以在低端机器上工作。这是因为深度学习算法对GPU有较高的要求，GPU是其工作的一个组成部分。因为深度学习算法要固有地执行大量的矩阵乘法运，而使用GPU可以有效地优化这些操作，这就免不了对GPU的依赖。而相比之下，机器学习算法对硬件配置没有很高的要求。

3、特征工程

特征工程是将领域知识应用到特征抽取的创建过程，以降低数据的复杂性为目的。但这一过程在训练时间和如何提取特征方面十分地困难。

在机器学习中，大多数应用的特征需要由专家识别，然后根据域和数据类型手工编码。

例如，特征可以是像素值、形状、纹理、位置和方向，大多数机器学习算法的性能取决于特征识别和提取的准确程度。

而深度学习算法则试图从数据中学习更高级的特性。这是深度学习一个非常独特的部分，也是有别于传统机器学习的一部分。因此，深度学习减少了为每个问题开发新的特征抽取的任务，而是像卷积神经网络(CNN)这样尝试学习低层次的特征，如：早期层次的边缘和线条，然后是人脸的一部分，最后才是人脸的高层次表示。这样的方式相较于机器学习，在训练时间和成本上有较高的提升。

二、机器学习数据偏差

样本偏差：当数据集不能反映模型将在其中运行的环境的实际情况时，就会发生样本偏差。这样的一个例子是某些主要在白人图像上训练的面部识别系统。这些模型对妇女和不同种族的人的准确度要低得多。此偏差的另一个名称是选择偏差。

排除偏差：排除偏差在数据预处理阶段最常见。通常，这是删除不重要的有价值数据的情况。但是，由于某些信息的系统排除，它也可能发生。例如，假设你有一个在美国和加拿大的客户销售数据集。98%的客户来自美国，因此你选择删除不相关的位置数据。但是，这意味着你的模型将不会因为加拿大客户的消费增加两倍多这一事实而受到影响。

测量偏差：当为训练而收集的数据与现实世界中收集的数据不同时，或者当错误的测量结果导致数据失真时，就会发生这种偏差。这种偏差的一个很好的例子出现在图像识别数据集中，其中训练数据是用一种类型的照相机收集的，而生产数据是用另一种照相机收集的。在项目的数据标记阶段，由于注释不一致也会导致测量偏差。

召回偏差：这是一种测量偏差，在项目的数据标记阶段很常见。当你不一致地标记相似类型的数据时，就会产生召回偏差。这导致较低的精度。例如，假设你有一个团队将电话的图像标记为损坏，部分损坏或未损坏。如果有人将一张图像标记为已损坏，但将相似的图像标记为部分已损坏，则你的数据将不一致。

观察者偏差：也称为确认偏差，观察者偏差是看到你期望在数据中看到或想要看到的结果的效果。当研究人员在有意识或无意识的情况下对自己的研究有主观想法进入项目时，可能会发生这种情况。当标签制作者让主观思想控制他们的标签制作习惯，从而导致数据不准确时，你也可以看到这一点。

以上就是小编这次想要和大家分享的有关机器学习的内容，希望大家对本次分享的内容已经具有一定的了解。如果您想要看不同类别的文章，可以在网页顶部选择相应的频道哦。