机器学习是什么意思
扫描二维码
随时随地手机看文章
机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习并改善性能。
机器学习的核心在于使用算法解析数据,从中学习,然后对新数据做出预测或决策,这个过程与人类的学习过程相似,例如,人们通过获取经验来对新问题进行预测。机器学习算法通常建立在数学模型上,这些模型是基于一个包含多个样本数据的训练集进行训练的,算法通过这些数据学习到数据之间的隐藏模式,从而对新的、未知的数据进行分类或预测。机器学习领域涉及概率论、统计学、计算机科学等多门学科,并广泛应用于图像识别、自然语言处理、推荐系统等多个领域。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。
机器学习(ML)是计算机系统为了有效地执行特定任务,不使用明确的指令,而依赖模式和推理使用的算法和统计模型的科学研究。它被视为人工智能的一个子集。机器学习算法构建一个基于样本数据的数学模型,称为“训练数据”,以便在没有明确编程来执行任务的情况下进行预测或决策。[1][2]机器学习算法用于各种应用,例如电子邮件过滤和计算机视觉,在这些应用中,开发用于执行任务的特定指令的算法是不可行的。机器学习与计算统计学密切相关,计算统计学侧重于使用计算机进行预测。算法优化的研究为机器学习领域提供了方法、理论和应用领域。数据挖掘是机器学习中的一个研究领域,侧重于探索性数据分析到无监督学习。[3][4]在跨业务问题的应用中,机器学习也被称为预测分析。
机器学习这个名字由阿瑟·塞缪尔于1959年创造。[5]汤姆·米切尔(Tom m . Mitchell)为机器学习领域研究的算法提供了一个被广泛引用的、更正式的定义:“一个计算机程序可以通过从经验E中学习某些类型的任务T和性能度量P,如果它在T中的性能(用P来衡量)能用经验E来改进。"[6]机器学习所涉及的任务的这个定义提供了一个基本的操作定义,而不是用认知术语来定义这个领域。这遵循了艾伦·图灵在他的论文“计算机器和智能”中的提议,其中的问题是“机器能思考吗?”被替换为“机器能做我们(作为思维实体)能做的事吗?”[7]图灵的提议,揭露出来思维机器 可能具有的特性和构建一个模型的各种含义。
机器学习任务分为几大类。在监督学习中,算法从包含输入和期望输出的一组数据中建立数学模型。例如,如果任务用于确定图像是否包含某个对象,则监督学习算法的训练数据将包括带有和没有该对象的图像(输入),并且每个图像将具有一个标签(输出),来指示其是否包含该对象。在特殊情况下,输入可能仅部分可用,或者仅限于特殊反馈。半监督学习算法根据不完整的训练数据开发数学模型,其中一部分样本输入没有标签。
分类算法和回归算法是监督学习的类型。当输出被限制在一组有限的值时,使用分类算法。对于过滤电子邮件的分类算法,输入将是收到的电子邮件,输出将是归档电子邮件的文件夹的名称。对于识别垃圾邮件的算法,输出将是“垃圾邮件”或“非垃圾邮件”的预测值,其由布尔值true和false表示。回归算法是以它们的连续输出命名的,这意味着它们可以具有范围内的任何值。连续值的例子是物体的温度、长度或价格。
在无监督学习中,算法从一组只包含输入而不包含所需输出标签的数据中建立数学模型。无监督学习算法用于寻找数据中的结构,如数据点的分组或聚类。无监督学习可以发现数据中的模式,并可以将输入按类别分组,就像在特征学习中一样。降维是减少一组数据中“特征”或输入的过程。
主动学习算法根据预算有限的一组输入访问所需的输出(训练标签),并优化为其获取训练标签的输入选择。当交互使用时,这些可以呈现给人类用户进行标记。强化学习算法在动态环境中以正或负强化的形式给出反馈,并用于自动车辆或学习与人类对手玩游戏。[2]机器学习中的其他专门算法包括主题建模,其中计算机程序被赋予一组自然语言文档,并找到涵盖类似主题的其他文档。机器学习算法可用于在密度估计问题中找到不可观测的概率密度函数。元学习算法根据以前的经验学习自己的归纳偏差。在发展机器人学中,机器人学习算法生成自己的学习体验序列,也称为课程,通过自我引导的探索和与人类的社会互动积累获得新技能。这些机器人使用主动学习、成熟、运动协同和模仿等引导机制。
2 历史和与其他领域的关系编辑阿瑟·塞缪尔,计算机游戏和人工智能领域的美国先驱,1959年在IBM 中创造了术语“机器学习”[8]。作为一项科学事业,机器学习源于对人工智能的追求。早在人工智能作为一门学科的早期,一些研究人员就对让机器从数据中学习感兴趣。他们试图用各种符号方法以及后来被称为“神经网络”的方法来解决这个问题;这些模型主要是感知器,和后来被发现是统计学的广义线性模型的重新发明的其他模型。[9]概率推理也被使用,特别是在自动医疗诊断。[10]
然而,对逻辑的、基于知识的方法的日益强调导致了人工智能和机器学习之间的裂痕。概率系统受到数据获取和表示的理论和实践问题的困扰。[10]到1980年,专家系统已经主导了人工智能,统计数据不受欢迎。[11]符号/基于知识的学习的工作确实在人工智能中继续进行,导致了归纳逻辑编程,但是现在更多的统计研究在模式识别和信息检索中,已经超出了人工智能本身的范围。[10]人工智能和计算机科学几乎同时放弃了神经网络研究。来自其他学科的研究人员,包括霍普菲尔德、鲁梅尔哈特和辛顿,也在人工智能/计算机科学领域之外延续了这一路线,称为“连接主义”。他们的主要成功是在20世纪80年代中期,重新发明了反向传播。[10]
机器学习作为一个被重组的独立的领域,在20世纪90年代开始蓬勃发展。该领域将其目标从实现人工智能转变为解决实际问题。它将注意力从人工智能继承的符号方法转移到从统计学和概率论中借用的方法和模型上。[11]它还受益于数字化信息日益增多的可用性以及通过互联网分发信息的能力。
机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。
机器学习的核心是“使用算法解析数据,从中学习,然后对新数据做出决定或预测”。也就是说计算机利用以获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测。
我们举个例子,我们都知道支付宝春节的“集五福”活动,我们用手机扫“福”字照片识别福字,这个就是用了机器学习的方法。我们可以为计算机提供“福”字的照片数据,通过算法模型机型训练,系统不断更新学习,然后输入一张新的福字照片,机器自动识别这张照片上是否有福字。
机器学习是一门多领域交叉学科,涉及概率论、统计学、计算机科学等多门学科。机器学习的概念就是通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测。
监督学习就是训练机器学习的模型的训练样本数据有对应的目标值,监督学习就是通过对数据样本因子和已知的结果建立联系,提取特征值和映射关系,通过已知的结果,已知数据样本不断的学习和训练,对新的数据进行结果的预测。
监督学习通常用在分类和回归。比如手机识别垃圾短信,电子邮箱识别垃圾邮件,都是通过对一些历史短信、历史邮件做垃圾分类的标记,对这些带有标记的数据进行模型训练,然后获取到新的短信或是新的邮件时,进行模型匹配,来识别此邮件是或是不是,这就是监督学习下分类的预测。
再举一个回归的例子,比如我们要预测公司净利润的数据,我们可以通过历史上公司利润(目标值),以及跟利润相关的指标,比如营业收入、资产负债情况、管理费用等数据,通过回归的方式我们回到的一个回归方程,建立公司利润与相关因此的方程式,通过输入因子数据,来预测公司利润。
监督学习难点是获取具有目标值的样本数据成本较高,成本高的原因在于这些训练集的要依赖人工标注工作。