机器学习的四个过程
扫描二维码
随时随地手机看文章
在本文中,我将介绍机器学习(ML)建模中的四个主要过程,作为数据从业者,您应该彻底了解这些过程。
机器学习是人工智能的一个分支,它通过揭示数据模式(即特征和目标变量之间的关系)来模拟人类的学习能力。特征是表示给定观察点或数据点的属性的独立变量。另一方面,目标变量是一个因变量,我们感兴趣的建模作出预测。
机器学习建模是数据科学项目生命周期中的一个重要步骤,也是该项目中最有趣的部分之一。
在上一篇文章中,我讨论了机器学习的主要组成部分,并提供了机器学习建模的额外介绍。
机器学习建模中的4个关键过程
现在,让我们深入研究机器学习建模中的四个主要过程。
训练
这是将机器学习算法与数据进行匹配以学习模式的过程,其结果是创建一个模型。另外,算法的选择可能会受到基于现有计算能力的训练时间需求的影响。
在进行进一步试验之前,训练过程通常是针对基线模型进行的,作为项目的基准。基线模型可以是一个简单的算法,例如线性回归或带默认设置的随机森林算法。基线模型的选择很大程度上取决于问题和数据从业者的经验。
大多数机器学习算法通过拟合方法进行训练。
以下是常用的训练术语:
串行训练: 这种类型的训练大多在单个处理器上进行,广泛用于简单到中等的训练工作。
分布式训练:在这里,适合一个算法的工作负载被分解并在多个微处理器之间共享。这就是所谓的并行计算,它有助于加快这一进程。点击这里查看更多详情。
离线学习:在这种情况下,对所有可用数据定期进行训练,只有在性能令人满意时才将模型部署到生产环境中。
在线学习: 在这里,模型权重和参数随着新的数据流的出现而不断实时更新。
调优
这是选择最佳超参数集的过程,给出了最佳模型。这是机器学习建模中最耗时的过程,包括创建几个具有不同超参数值集的模型。相关指标,例如平方平均数误差(RMSE)、平均绝对误差(MAE)和准确度,可用于选择最佳模型。
在调优过程中需要避免的一个常见缺陷是对此过程使用测试集。相反,需要为此创建并使用验证集。更妙的是,需要采用交叉验证等方法来防止过拟合。
Python 中已经实现了一些易于使用的模块,它们可以用于超参数优化,即 GridSearchCV、 Rodd SearchCV 和 BayesSearchCV。
预测
一旦选择了最佳模型,就可以使用测试数据和其他新的数据集进行预测,而不需要在模型的输入数据中提供目标变量。这也被称为机器学习推理。
评估
模型评估是评估机器学习模型预测性能的过程。其主要思想是从模型中量化预测的质量。在超参数优化过程中使用的相同指标可以在这里使用,为了结果表示的目的,也可以添加新的指标。
sklearn有三种不同的API用于评估模型预测的质量:
估计器评分方法: 估计器有一种评分方法,为他们设计要解决的问题提供默认的评估标准。这一点在本次没有讨论,可以通过浏览每个估价器的文档进行学习。
评分参数:使用交叉验证等模型评估工具(如
model_selection.cross_val_score和model_slection.GridSearchCV)的内部评分策略。通过scoring参数设置指定评估工具。
度量函数:sklearn.metrics模块实现用于特定目的的预测误差评估功能。这些度量在分类度量、多标签排名度量、回归度量和聚类度量部分中有详细说明。
最后,虚拟估值器有助于获得随机预测的这些指标的基线值。
评分参数:定义模型评价规则
使用model_selection等工具进行模型选择和评估。
model_selection.GridSearchCV 和 model_selection. cross_val_score中使用一个scoring参数来控制它们应用于评估的估计器的度量。
class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)sklearn.model_selection.cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)
常见案例:预定义值
对于最常见的用例,您可以使用scoring参数指定一个评分器对象;下表显示了所有可能的值。所有评估器对象都遵循较高返回值优于较低返回值的约定。因此,度量模型与数据之间距离的度量,例如:
metrics.mean_squared_error,可以用neg_mean_squared_error返回度量的负值,以满足上面的基本约定。
机器学习是人工智能应用研究较为重要的分支,它的发展过程大体上可分为4个阶段。
第一阶段是在20世纪50年代中期到60年代中期,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习;其研究目标是各类自组织系统和自适应系统;其主要研究方法是不断修改系统的控制参数以改进系统的执行能力,不涉及与具体任务有关的知识。指导本阶段研究的理论基础是早在20世纪40年代就开始研究的神经网络模型。
随着电子计算机的产生和发展,机器学习的实现才成为可能。这个阶段的研究导致了模式识别这门新科学的诞生,同时形成了机器学习的两种重要方法,即判别函数法和进化学习。塞缪尔的下棋程序就是使用判别函数法的典型例子。不过,这种脱离知识的感知型学习系统具有很大的局限性。无论是神经模型、进化学习或是判别函数法,所取得的学习结果都很有限,远不能满足人们对机器学习系统的期望。
机器学习
第二阶段在20世纪60年代中期至70年代中期,称为机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或者图结构作为机器内部描述。机器能够采用符号来描述概念(符号概念获取),并提出关于学习概念的各种假设。
本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯・罗思(Hayes Roth)等的基于亚辑的归纳学习系统。虽然这类学习系统取得较大的成功,但只能学习单一概念,而且未能投人实际应用。此外,神经网络学习因为理论缺陷未能达到预期效果,机器学习的研究转入低潮。
第三阶段从20世纪70年代中期至80年代中期,称为复兴时期,在这个时期,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上,实现知识强化学习。龙其令人鼓舞的是,本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进了机器学习的发展。
在出现第一个专家学习系统之后,示例归约学习系统成为研究主流,自动知识获取成为机器学习的应用研究目标。1980年,在美国卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器归纳学习进人应用,1988年,国际杂志《机器学习》(Machine Learning)创刊,迎来了机器学习蓬勃发展的新时期。
机器学习
机器学习的最新阶段始于1986年,一方面,由于神经网络研究的重新兴起,对连接机制(connectionism)学习方法的研究方兴未艾,机器学习的研究已在全世界范围内出现新的高潮,对机器学习的基本理论和综合系统的研究得到加强和发展。
另一方面,实验研究和应用研究得到前所未有的重视。人工智能技术和计算机技术快速发展,为机器学习提供了新的更强有力的研究手段和环境。具体地说,在这一时期符号学习由“无知”学习转向有专门领域知识的增长型学习,因面出现了有一定知识背景的分析学习,神经网络由于隐节点和反向传播算法的进展,使连接机制学习东山再起,向传统的得号学习发起挑战,基于生物发有进化论的进化学习系统和遗传算法,因吸取了归纳学习与连接机制学习的长处面受到重视。
基于行为主义(actionism)的增强(reinforcement)学习系统因发展新算法和应用连接机制学习遗传算法的新成就而显示出新的生命力,1989年瓦特金(Watkins)提出Q-学习,促进了增强学习的深入研究。
机器学习是人工智能应用研究较为重要的分支,它的发展过程大体上可分为4个阶段。
第一阶段是在20世纪50年代中期到60年代中期,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习;其研究目标是各类自组织系统和自适应系统;其主要研究方法是不断修改系统的控制参数以改进系统的执行能力,不涉及与具体任务有关的知识。指导本阶段研究的理论基础是早在20世纪40年代就开始研究的神经网络模型。
随着电子计算机的产生和发展,机器学习的实现才成为可能。这个阶段的研究导致了模式识别这门新科学的诞生,同时形成了机器学习的两种重要方法,即判别函数法和进化学习。塞缪尔的下棋程序就是使用判别函数法的典型例子。不过,这种脱离知识的感知型学习系统具有很大的局限性。无论是神经模型、进化学习或是判别函数法,所取得的学习结果都很有限,远不能满足人们对机器学习系统的期望。
机器学习进入新阶段的重要表现在下列方面:
(1)机器学习已成为新的边缘学科并在高校形成一门课程。它合应用心理学,生物学和神经生理学以及数学,自动化和计算机科学形成机器学习的理论基础。
(2)结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。
(3)机器学习与人工智能各种基础问题的统一性观点正在形成,例如学习与问题求解结合进行、知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。
(4)各种学习方法的应用范围不断扩大,一部分已形成商品。归纳学习的知识获取工具已在诊断分类型专家系统中广泛使用。
(5)数据挖掘和知识发现的研究已形成热潮,并在生物医学、金融管理、商业销售等领域得到成功应用,给机器学习注入新的活力。
(6)与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研讨会外,还有计算机学习理论会议以及遗传算法会议。
免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。