机器学习的四种方法
扫描二维码
随时随地手机看文章
机器学习的方法主要包括以下四种:
监督学习:在监督学习中,系统会被给定一组已知输入和输出,需要学习到一种函数,使得该函数能够根据给定的输入预测出正确的输出。代表算法有线性回归、逻辑回归、决策树、深度神经网络等。
无监督学习:在无监督学习中,系统只有输入数据,没有输出数据,需要学习到一种函数,使得该函数能够将输入数据自动分类。代表算法有聚类算法,如K-Means;以及密度估计算法等。
半监督学习:半监督学习是一种混合监督学习和无监督学习的方法。在半监督学习中,系统会被给定一部分已知输入和输出的样本数据和一部分未知的输入数据,需要利用已知的样本数据来学习,使得该函数能够根据未知的输入数据预测出正确的输出。13
强化学习:强化学习是一种基于环境和反馈的学习方法。系统在不断的交互中学习到最优策略。代表算法包括Q-Learning以及时间差学习(Temporal difference learning)等。
以上四种方法各有特点和应用场景,选择哪种方法取决于具体的问题和需求。
在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)。
3. 非监督式学习
在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。
4.半监督式学习
在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。
二、13种常用算法
根据算法的功能和形式的类似性,我们可以把算法分类,比如说基于树的算法,基于神经网络的算法等等。当然,机器学习的范围非常庞大,有些算法很难明确归类到某一类。
1.回归算法
回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域,人们说起回归,有时候是指一类问题,有时候是指一类算法,这一点常常会使初学者有所困惑。常见的回归算法包括:最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)。
2. 正则化方法
正则化方法是其他算法(通常是回归算法)的延伸,根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO),以及弹性网络(Elastic Net)。
3.决策树学习
决策树算法根据数据的属性采用树状结构建立决策模型, 决策树模型常常用来解决分类和回归问题。常见的算法包括:分类及回归树(Classification And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林(Random Forest), 多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine, GBM)
机器学习的方法主要有以下几种:
监督学习: 监督学习是机器学习中最常见的方法之一,在监督学习中,系统会被给定一组已知输入和输出的样本数据,系统需要学习到一种函数,使得该函数能够根据给定的输入预测出正确的输出。
无监督学习: 无监督学习是机器学习中另一种常见的方法。在无监督学习中,系统只有输入数据,没有输出数据。系统需要学习到一种函数,使得该函数能够将输入数据自动分类。
半监督学习: 半监督学习是一种混合监督学习和无监督学习的方法。在半监督学习中,系统会被给定一部分已知输入和输出的样本数据和一部分未知的输入数据,系统需要利用已知的样本数据来学习到一种函数,使得该函数能够根据未知的输入数据预测出正确的输出。
强化学习: 强化学习是一种基于环境和反馈的学习方法,系统在不断的交互中学习到最优策略。
聚类:聚类是机器学习中的一种无监督学习方法,它的目的是将数据分成不同的群体,使得群体内的数据相似性最大,群体间的数据相似性最小。
降维: 降维是机器学习中的一种无监督学习方法,它的目的是降低数据的维度,使得数据更容易被分析。
深度学习: 深度学习是机器学习中一种基于神经网络的学习方法,它通过构建多层神经网络来模拟人类大脑进行学习。深度学习在计算机视觉、语音识别、自然语言处理等领域有着广泛的应用。
递归神经网络: 递归神经网络是一种特殊的深度学习方法,它通过递归的方式来处理序列数据,在自然语言处理、语音识别等领域有着广泛的应用。
贝叶斯学习: 贝叶斯学习是一种基于概率论和统计学的学习方法,它通过贝叶斯定理来进行学习和预测。
统计学习方法: 统计学习方法是一类基于统计学理论的机器学习方法,它通过统计学模型和优化算法来进行学习和预测。包括线性回归、逻辑回归、朴素贝叶斯等。
这些方法都有其特点和适用范围,在实际应用中要根据问题具体情况来选择合适的方法。