机器学习存在哪些潜力与陷阱
扫描二维码
随时随地手机看文章
最近这段时间,机器学习吸引了媒体和从业者大量的关注。的确,机器学习是一种变革性的技术。但是,尽管众人对这个话题喋喋不休,尽管风投为机器学习提供了许多资金,尽管谷歌让这个领域变得令人瞩目——在核心的技术领袖圈之外,机器学习仍然很少能获得正确的理解。
这就导致了对于机器学习这一变革性技术的未来的低估,而从商者也会因此无缘于了解他们应该为机器学习时代做好怎样的准备。
让我们讨论一下这把剑的两面吧——也就是它的潜力与陷阱。先从定义开始。
机器学习是一种算法,可以从数据中进行学习并作出预测。通常来说,运用这种技术时,越多的数据就能带来越好的结果。机器学习并不需要明确的规则来生成结果。它不需要人工建构的“如果这样的话,那么就那样”之类的结构,而是根据数据自行决定这一切。
机器学习的变革性作用,以及为何它现在如此重要,是因为我们来到了数据、运算能力以及算法复杂度的转折点。
这三个方面的进展汇合,造就了机器学习的一鸣惊人。这似乎有一些像妄想——为了能够在现在发生这样的事,在过去已经筹备了相当长的时间。让我们仔细看看这三个方面:
数据新数据库技术的出现(比如Hadoop)已经让获取海量数据的成本降低到令人吃惊的程度,以至于企业不再需要选择什么数据需要保留、什么数据需要删除,而是简单地存储一切数据。如果数据的价值在今天还不太明显,不久之后也许人们就会渐渐地意识到这一点。这为对于数据始终贪得无厌的机器学习算法提供了大量的“养分”。
运算能力运算能力方面的进展仍然在以让人惊讶的速度持续着。摩尔定律失效的预言已经过去了许多年,而Intel、IBM、Nvidia以及其他机构的研究人员们接二连三地不断创新,让摩尔定律一直保持成立、没有失效。要解决大问题?没问题,加上几十或者几百个核,根据需求来就好。不过,这也有极限,因为不是所有问题都能被这样暴力破解。
算法复杂度有趣的是,算法复杂度是与数据和运算相关的。由于这两个领域的进展,更彻底地探索复杂算法成为了可能。例如拓扑数据分析——它需要运算能力发展到能够从许多运算角(algorithmic angles)来看待大量数据集。
机器学习的变革性在于,它大幅地降低了高性能结果的运算时间。研究人员们已经在图像识别问题上花费了数十年的时间,但Google转向机器学习算法后仅仅几个季度就高效地在这个问题上做到了完美的表现。考虑到Google拥有的素材数量和团队的熟练程度,几乎没有人有可能在这个领域再胜过Google。
这一类的创新在不少企业都发生着,特别是那些雇佣了绝大多数机器学习人才的公司,包括Google、Facebook、Amazon、Apple、IBM、GE,以及高度专注于颠覆特定应用或是行业的一些初创公司。
这些公司在机器学习方面投资甚巨,这是因为投资能带来指数级的增长回报。在一个机器学习带来的指数级增长的世界中,即使只是少了10%的增长也会导致落于人后。而太晚开始的话,就算能和其他人保持一样的增长速度也无济于事。
虽然卓越的执行会获得指数级增长的回报,现实中将会有一系列不连续的事件,让增长曲线无法保持平滑。一家企业如何处理这些不连续的事件将会决定成王败寇。
这些不连续的事件就是机器学习的另一面——那些会导致这种技术充满竞争力的优势滑铁卢的元素。
这里列举了一些:
技术债机器学习系统并不是能自我复制(self-replicating)或者自我优化(self-opTImizing)的软件应用。因此,随着时间流逝,它们会积累越来越多的技术债。技术债有许多种表现形式,包括纠缠(entanglement)、隐藏反馈循环(hidden feedback loops)、依赖于未充分使用的数据(underuTIlized data dependencies)、管道丛林(pipeline jungles)、未申明的访问者(undeclared customers)等等。技术债会在无意中导致不希望的结果,带来脆弱(brittleness)以及混淆(obfuscaTIon)。所有这一切都会对系统产生影响,让系统无法达到最优状态。
理解技术债的细节是技术团队的责任。
理解技术债的概念和影响是管理团队的责任。
关于机器学习技术债的细节,请在新智元微信公众号后台回复xxxx,阅读新智元翻译的、来自谷歌的技术债详细介绍:【Google 年度顶级论文】机器学习系统,隐藏多少技术债?(论文下载)。
黑盒某些算法是黑盒——这是指难以理解在算法中发生了什么,特别是对于单独的数据点来说。这并不总是会成为一个问题,但是,它对于一个组织而言很多时候都代表了真实存在的挑战,无论是从文化上还是从技术上来说都是这样。如果选用的算法是一个黑盒,而世界的变化超出了模型的预测能力,那么缺乏足够的理解会让整个系统陷入怀疑论的危机。无法解释模型为何失败,从接收机器学习算法程度的角度来说,可以让一个组织在这一方面倒退许多年。
算法选择虽然这有一些老生常谈,不过在机器学习领域的确没有“上帝”一样万能的算法。没有算法能在文本分析、模式匹配、分词、异常侦测、以及特征生成上都做得一样好。
的确,有几十种强力的算法和数千种这些算法的高度调整(highly tuned)版本,每一种都有它自己独有的优点和缺点。最终,不同的算法会服务于不同的目的。比如,你的逻辑回归模型(LRM)看待数据世界的方式与你的支持向量机(SVM)有很大的差异。这意味着,作为一个数据科学家或者是一个计算机科学家,你有时会放下LRM、转而用起SVM——它们是为不同的工作而服务的。但是它们之前的区别并不只是类似于不同尺寸的扳手,并且放下LRM、转向SVM在上手时是非常消耗时间的。
选用正确的算法对于保持一个组织的良好运作来说是非常重要的,就和了解使用什么时候应该使用净现值(NPV)、什么时候应该使用内部收益率(IRR)一样。
人类的偏差与算法选择相关的一个概念是人类偏差(human bias)。无论如何,机器学习算法都是复杂的数学公式,而精通某种特定的算法会让从业者对这种算法产生依赖——通常是严重的依赖。这种趋势让人想起一句古老的谚语,“当你除了锤子一无所有时,所有东西看上去都像钉子”。如果你的机器学习团队中,所有人都毕业于同一个学校的同一期,有可能他们用的都是同样的一些算法。向你的组织中注入算法多样性会为组织带来明显的益处。
避免陷阱因为技术债的存在,领导层需要确保厉害的软件工程师与厉害的数学家同在。缺少其中一方将会失去平衡,在未来导致很多问题。招募双方。
对于黑盒问题,你需要仰赖数百年来的统计学知识来解释模型中每一个决策背后的原因。这种要求非常严苛,但当你需要知道为什么算法最后做出了一个决策时,经历这样的时间是非常重要的。这对于创造一种机器学习文化而言至关重要。人们需要信任这个系统,而统计学可以提供沟通人类与算法的桥梁。
面对算法选择的挑战,答案是部署越来越多种类的算法,于是你不必再从中选择。计算机的性能已经足够做到这一点,已经有可以对于数据集用多种算法并行处理的框架。好好利用。
最后,如果你部署了多种机器学习算法,人类偏差问题应当迎刃而解——特别是如果你采用了让过程自动化的技术,用数据来自动找出最适应的算法。
前方的机遇机器学习将无愧于它得到的炒作。明白情况的人都会对它的变革性——对于任何职业、工作流程和商务处理来说都是这样——保持高度的信心。
率先迈向机器学习的组织将会获得相应的回报。但是理解机器学习的潜力和风险是非常重要的,因为对于机器学习领域的熟悉程度仍然不足。现在正是时候针对这一技术深挖、学习、雇佣、以及投资,等到明天的话,也许你的竞争对手就已经开始来势汹汹地扩张了。