机器学习关键概念有哪些?边云协同机器学习面临什么挑战?
扫描二维码
随时随地手机看文章
今天,小编将在这篇文章中为大家带来机器学习的有关报道,通过阅读这篇文章,大家可以对机器学习具备清晰的认识,主要内容如下。
一、机器学习关键概念
1.特征选择与工程
优化机器学习模型的重要一步是优化。 我们开发的模型需要以最佳状态执行,而要确保做到这一点的一种方法是使用最佳功能来训练模型。
包括每个特征并不总是有用的。 有些特征可能与我们尝试预测的变量没有有意义的统计关系,而另一些特征可能彼此紧密相关。 这两种情况都将噪声引入训练阶段,这可能会降低模型性能。 特征选择是选择最佳特征以包含在训练阶段中的过程。
同样,原始形式的特征可能无法提供足够的有意义的数据来训练性能模型。 另外,某些特征根本不能以其原始形式使用,一个很好的例子就是基于日期/时间的功能。 机器学习模型不能使用日期或时间戳作为特征,我们需要首先从日期中导出有意义的特征,才能包含此信息。 我们可以使用整数形式的日期部分(例如月,日或星期数),或计算两个日期之间的差,以提供算法可以理解的模式。 这就是所谓的特征工程。
2.训练
监督式机器学习需要标记数据,因为算法使用这些示例特征值及其对应的标记来"学习"模式,如果成功,则将使模型能够准确地预测新的未标记数据上的标记。
在机器学习过程中,学习的这一阶段称为训练阶段。 在此阶段结束时,您将拥有一个可用于预测新的未标记数据的标签或值的模型。 训练阶段通常称为拟合模型。
3.调参
在以前的文章中,介绍功能选择时,我曾讨论过一个优化过程。此过程的另一部分称为调参,涉及优化算法参数以找到适合您特定数据集的最佳组合。
所有机器学习模型都包含具有多种选项的参数。 例如,随机森林模型具有许多可调参数。 一个示例是n_estimators,它确定森林中树木的数量。 通常,树的数量越多,结果越好,但是在特定点(并且这取决于数据集),随着您添加更多的树,改进会降低。 为您的数据集找到最佳树数是一种调整随机森林算法参数的方法。
每种算法都有许多可调参数,并且每个参数都有大量潜在的选项。 幸运的是,有自动方法可以找到这些参数的最佳组合,这就是所谓的超参数优化。
二、边云协同机器学习面临什么挑战
目前边云协同机器学习的经典模式是:在云上给定一个数据集运行机器学习算法构建一个模型,然后将这个模型不作更改应用在多个边侧的多次推理任务上。这种学习范式称为封闭学习(也称孤立学习),因为它并未考虑其他情景学习到的知识和过去学习到的历史知识。虽然边云协同机器学习技术的相关研究和应用都有着显著的进展,然而在成本、性能、安全方面仍有诸多挑战:数据孤岛/小样本/数据异构/资源受限。
在边缘云背景下:(1)不同边侧数据分布总是不断变化,(2)而边侧标注样本也往往由于成本较高导致数量稀少。因而封闭学习需不停标注样本并重新训练,这显然给服务落地带来巨大挑战。这种数据分布和数据量上的挑战分配称为数据异构和小样本,属于边云协同机器学习的四大挑战。
当前的封闭学习范式可被用于提供数据同构和大数据的服务,但难以处理数据异构和小样本的问题,所以并不合适用于建立通用的机器学习系统。伊利诺伊大学芝加哥分校的刘兵教授也在Frontiers of Computer Science中总结,封闭学习范式一系列局限性的根本在于没有记忆,这导致它通常需要大量的训练样本。
对应的范式改进可以从人类的学习过程中得到启发。可以看到,人类之所以能够越学越聪明,是由于每个人并非自我封闭地学习,而是不断地积累过去学习的知识,并利用其他人的知识,学习更多知识。借鉴人类这种学习机制,终身学习结合边云协同可以发展出边云协同终身学习。
以上所有内容便是小编此次为大家带来的有关机器学习的所有介绍,如果你想了解更多有关它的内容,不妨在我们网站或者百度、google进行探索哦。