原创

机器学习关键概念有哪些?边云协同机器学习面临什么挑战?

时间：2022-12-01 10:25:01

关键字：机器学习边云协同机器学习边云协同

手机看文章

扫描二维码
随时随地手机看文章

[导读]今天，小编将在这篇文章中为大家带来机器学习的有关报道，通过阅读这篇文章，大家可以对机器学习具备清晰的认识，主要内容如下。

今天，小编将在这篇文章中为大家带来机器学习的有关报道，通过阅读这篇文章，大家可以对机器学习具备清晰的认识，主要内容如下。

一、机器学习关键概念

1.特征选择与工程

优化机器学习模型的重要一步是优化。我们开发的模型需要以最佳状态执行，而要确保做到这一点的一种方法是使用最佳功能来训练模型。

包括每个特征并不总是有用的。有些特征可能与我们尝试预测的变量没有有意义的统计关系，而另一些特征可能彼此紧密相关。这两种情况都将噪声引入训练阶段，这可能会降低模型性能。特征选择是选择最佳特征以包含在训练阶段中的过程。

同样，原始形式的特征可能无法提供足够的有意义的数据来训练性能模型。另外，某些特征根本不能以其原始形式使用，一个很好的例子就是基于日期/时间的功能。机器学习模型不能使用日期或时间戳作为特征，我们需要首先从日期中导出有意义的特征，才能包含此信息。我们可以使用整数形式的日期部分(例如月，日或星期数)，或计算两个日期之间的差，以提供算法可以理解的模式。这就是所谓的特征工程。

2.训练

监督式机器学习需要标记数据，因为算法使用这些示例特征值及其对应的标记来"学习"模式，如果成功，则将使模型能够准确地预测新的未标记数据上的标记。

在机器学习过程中，学习的这一阶段称为训练阶段。在此阶段结束时，您将拥有一个可用于预测新的未标记数据的标签或值的模型。训练阶段通常称为拟合模型。

3.调参

在以前的文章中，介绍功能选择时，我曾讨论过一个优化过程。此过程的另一部分称为调参，涉及优化算法参数以找到适合您特定数据集的最佳组合。

所有机器学习模型都包含具有多种选项的参数。例如，随机森林模型具有许多可调参数。一个示例是n_estimators，它确定森林中树木的数量。通常，树的数量越多，结果越好，但是在特定点(并且这取决于数据集)，随着您添加更多的树，改进会降低。为您的数据集找到最佳树数是一种调整随机森林算法参数的方法。

每种算法都有许多可调参数，并且每个参数都有大量潜在的选项。幸运的是，有自动方法可以找到这些参数的最佳组合，这就是所谓的超参数优化。

二、边云协同机器学习面临什么挑战

目前边云协同机器学习的经典模式是：在云上给定一个数据集运行机器学习算法构建一个模型，然后将这个模型不作更改应用在多个边侧的多次推理任务上。这种学习范式称为封闭学习(也称孤立学习)，因为它并未考虑其他情景学习到的知识和过去学习到的历史知识。虽然边云协同机器学习技术的相关研究和应用都有着显著的进展，然而在成本、性能、安全方面仍有诸多挑战：数据孤岛/小样本/数据异构/资源受限。

在边缘云背景下：(1)不同边侧数据分布总是不断变化，(2)而边侧标注样本也往往由于成本较高导致数量稀少。因而封闭学习需不停标注样本并重新训练，这显然给服务落地带来巨大挑战。这种数据分布和数据量上的挑战分配称为数据异构和小样本，属于边云协同机器学习的四大挑战。

当前的封闭学习范式可被用于提供数据同构和大数据的服务，但难以处理数据异构和小样本的问题，所以并不合适用于建立通用的机器学习系统。伊利诺伊大学芝加哥分校的刘兵教授也在Frontiers of Computer Science中总结，封闭学习范式一系列局限性的根本在于没有记忆，这导致它通常需要大量的训练样本。

对应的范式改进可以从人类的学习过程中得到启发。可以看到，人类之所以能够越学越聪明，是由于每个人并非自我封闭地学习，而是不断地积累过去学习的知识，并利用其他人的知识，学习更多知识。借鉴人类这种学习机制，终身学习结合边云协同可以发展出边云协同终身学习。

以上所有内容便是小编此次为大家带来的有关机器学习的所有介绍，如果你想了解更多有关它的内容，不妨在我们网站或者百度、google进行探索哦。