IBM大力炒作Watson机器学习系统,未来的道路却充满荆棘
扫描二维码
随时随地手机看文章
IBM,位列最聪明的50家公司榜单的中第39名,虽然对自家的Watson机器学习系统有些夸大,但这家公司的确能接触到可将药品信息变为简单有用的数据。
保罗·唐正待在医院里陪伴刚完成关节置换手术之后的妻子。每年,在美国约有70万人接受关节置换手术。唐本人是一名初级保健医师,外科医生走过来,唐问医生根据自身经验估计,依照他妻子的情况,大概需要多久能回归正常的生活。医生一直给出的都是支支吾吾的答复。“我最后明白了”唐说。“医生他自己也不知道”。唐很快意识到大多数的医生不知道病人回到家庭、工作后的生活方式,而生活方式对病人来讲,至关重要。
唐不仅是病人眼中的医生,还是IBM的Watson健康的首席康复执行官。IBM差不多把自己的未来都押宝在Watson机器学习系统上了,而Watson健康是为Watson开发医疗保健应用程序的商业团队。Watson能传递医生无法实时获取的信息。举个例子,它能告诉医生,类似于唐的妻子的情况,需要多久才能无痛的行走、上下楼梯。他甚至可以帮助分析图像和组织样本,为指定的病患确定最佳的治疗方案。
出于这种可能,医疗保健是机器学习技术市场中最热门的领域之一。根据研究机构CB Insights统计,至少有106家2013年起步的创业公司至今仍在运营。
多亏了Watson在益智问答节目危险边缘中的成功,其他公司都没有涉及Watson所关注的地方。IBM自2011年及之后的市场营销工作一直做的不错,但之后都是关于Watson的负面消息。IBM极力促成的与M.D.Anderson癌症中心的合作与今年告吹。随着IBM的收入下滑,股价起伏不定,分析人士质疑Watson能否提供真正的价值。创建风投公司,较有影响力的科技投资者Chamath Palihapitiya五月份在CNBC上声称:“Watson就是个笑话”。
然而,对于Watson的大多数批评,甚至是来自M.D.Anderson方面的批评,似乎不是针对任何技术上的缺陷,而是针对IBM对于Watson未来将达到的地步过于乐观。事实上,在将AI应用到医疗卫生问题方面,似乎仍是Watson健康处于龙头地位。如果Watson至今还没有实现之前提到的诸多功能,一个重要的原因是,它需要特定类型的数据去训练自己。在很多情况下,这种数据供给紧俏或者难以触及。但这个问题不是仅仅针对Watson,整个医疗健康领域的机器学习都是处于进退两难的处境。
丢失和无法接触数据可能会让Watson的缓脚步,还可能给对IBM的竞争者带来更沉重的打击。获取数据的最佳选择在于跟大型医疗卫生机构保持良好的关系,而这些机构在技术上倾向于保守态度。相对于创业公司亦或是巨头Apple、Google,IBM在取得大型机构的高管、IT经理的信任方面做的尤为出色。尽管M.D.Anderson项目存在问题,IBM自身仍具备重要优势。这些优势使得Watson能进入各种各样的医疗中心、医疗卫生管理集团和生命科学公司。所有的这些机构能够提供塑造AI在医药领域未来的重要数据。
不现实的时间表
和M.D.Anderson的分道扬镳似乎意味着IBM在炒作Watson方面搬起石头砸了自己的脚。
癌症中心于2012年与IBM合作。目的是为了读取关于病人特征、基因序列和病理报告的数据,结合数据与医生对病人的医嘱、相关的日志记录,为医生提供诊断和治疗。但是IBM和M.D.Anderson对于技术都抱有过高的期望。IBM在2013年声称“计算的新纪元到了”,给Forbes一种Watson“进入临床试验”的印象,在几个月后就能用于病患。在2015年,华盛顿邮报引用一位IBM Watson主管的关于Watson如何忙于建立“人机之间的集合智慧模型”的描述。邮报称电脑系统“正在与医生一同训练,完成医生无法胜任的工作”。
“医疗卫生在采用新技术方面一直处于尴尬的迟滞状态”Cleveland诊所医生、医疗卫生信息专家Manish Kohli如此说到。
在今年2月份,运营M.D.Anderson项目的德克萨斯大学宣布关闭该项目,使得医疗中心跟IBM欠款3900万美元,而项目的原始合同额为240万美元。四年之后,项目并未做出符合初步测试能用于病人的系统。M.D.Anderson没有对Watson做具体的评论,但问题似乎出现在内部关于项目如何管理和资助方面。
那样并不意味着IBM与Watson之间没有问题。实际上,二者间的问题比IBM面临的其他问题要大许多。
要了解什么拖慢了进度,你必须清楚像Watson这样的机器学习系统是如何被训练的。Watson通过不断重新调整它的内部处理流程来得到一些问题集合的最高可能性的正确答案,比如哪张放射性图片显示癌症。正确答案必须是已知的,这样系统才能被告知它何时做对,何时做错。系统能吞吐的问题量越大,得到结果的准确率就越高。
当训练系统识别X射线图像中的恶性肿瘤时就相对简单。但对于潜在的新问题已经远超人类所涉及的范围,比如检测基因变量和疾病之间的关系。Watson存在一个鸡生蛋还是蛋生鸡的问题:没有经过专家筛选和合理整理的数据如何能用来训练系统?纽约Memorial Sloan-Kettering癌症中心的计算病理学家Thomas Fuchs称,如果你在教一辆自动驾驶汽车,任何人都可以标记一棵树或一个标识,系统才能学会识别标记。“但在医药的特殊领域,你可能需要经过数十载训练的专家来标记用来训练系统的数据”。
在IBM希望Watson发力的每个领域都会出现形形色色的绊脚石,任何其他公司的机器学习解决方案都会遇到相同的情况。为了锻炼Watson去仔细检查数据库并提取针对单个病人的几条信息,必须要有人提前手工整理成百上千条的病例。为了识别与疾病相关的基因,Watson需要成千上万条有具体疾病且DNA已经被分析的患者记录。但这种患者及其基因记录的组合数据是很难得到的。在很多情况下,数据并非按照正确的格式存在,或者按照任何格式存在。数据也可能分散在诸多不同的系统中,难以处理。
举个例子,把更好的数据放在临床医师的面前来达到改善初级卫生保健的目的。当医生没能在常规的初级保健访问中治理一些相对较小的健康隐患,这些健康隐患可能会恶化而将病人送进急救室或者专家那里,病人的健康将受损而且开销剧增。IBM Watson健康的首席医疗官,同时也是一位执业的初级保健护理医师称,在健康方面花的钱有三分之一可能都是不必要的。机器学习被普遍认为是解决这一问题的机会。为了真正帮助医生为患者带来更好的效果,Watson将需要找出它在健康记录中读取的内容与唐口中所谓的“健康的所有社会决定因素”之间的关联。这些因素包括患者是否吸毒,避免错误的食品,呼吸新鲜的空气等等。但唐承认几乎没有医院或医疗机构能获取相当比例患者的可靠数据。部分原因是医院在采取现代化、数据驱动的实践方面较为迟缓。“医疗卫生在采用新技术方面一直处于尴尬的迟滞状态”Cleveland诊所医生、医疗卫生信息专家Manish Kohli如此说到。
哪里有数据,IBM通常就是简单地过去把它买下来。IBM收购了Truven Health Analytics、Explorys和Phytel等公司。所有的这些公司在处理跨医院与病患人群的大宗数据集上都表现活跃。即使在解散M.D.Anderson项目合约之后,IBM仍有一些重要的伙伴关系使得其未来能接触到患者数据。
他们中的一家机构便是Atrius Health。Atrius Health是一个由波士顿地区近900位主要是初级保健医师组成的网络。伙伴关系的目的是开发和测试一个基于Watson的系统,系统将具备从海量笔记、记录和文献中提取出对单个病患至关重要的信息。Atrius的首席医疗官Joe Kimura说:“寻求所有相关信息对于初级保健医生来说是一件艰巨的任务。电子化医疗记录可能会让问题更加糟糕,他补充道。因为这些系统会大大增加每次访问中产生的数据量而且没有提供用于方便检索的标准格式。
重要的是,患者记录中大多数笔记是常规IT系统无法理解的句子。为了提取句子的含义,Watson可以使用为危险边缘而开发的自然语言处理技术。理想情况下,它可以为医师提供建议帮助病人避免额外的护理。“为什么我们应该只关注确保做好髋骨骨折的病人的护理工作?”Kimura问到,“我们何时能预测哪位病人有摔倒的风险并帮助他们避免摔坏髋骨?我们要向上推进护理工作”。
2013年,M.D.Anderson的一位白血病医生在咨询病人时,使用IBM的Watson系统
IBM在2015年宣布Watson的诊断能力将因由Merge Healthcare获取的数据而得到进一步提升。Merge Healthcare是IBM花费10亿美元收购的医疗图像管理公司。
Watson健康一直与纽约护理协调中心合作。该中心是由政府资助的机构,与六个县的约2000个保健服务机构合作。伙伴关系旨在达成急诊室入院和出院病人因相关问题再次入院的数量减少25%的目标。它还隐含的提供了接触大量病患数据的途径。
接触此类数据有很多途径。Google的姐妹公司之一正在试图直接从患者身上获取数据。Verily生命科学,Alphabet的一个健康护理部门,正与杜克大学、斯坦福大学合作开发基于约10000名志愿者的高度结构化的健康数据库。数据库中数据不仅来自他们的日常就诊,还来自可穿戴的健康监测设备。尽管可能要花费10年甚至更久才能获取高度可用的结果,这在获取数据方面依然是令人为之振奋的一次飞跃。
Sloan-Kettering纪念癌症中心的Fuchs的团队希望训练一个人工智能系统去读取组织染色的幻灯片。这一过程将需要大量已经确诊并用数字化标记的幻灯片和其他重要的数据。所以这个团队正准备独自生产40000张幻灯片。“那可比其他家的数据多了去了”Fuchs称。“因为生物学中的所有变量,这将是一个浩瀚的工程”。
即便弃Watson项目的命运不顾,M.D.Anderson一直在进行一项大的项目。这个项目大概跟Watson项目同时起步,专注于收集自家中心每位病人1700种类型的临床数据。运营该项目的科学家Andy Futreal称,把研究数据与病患信息结合将对系统希望Watson具备的各种能力至关重要。Futreal表示,“一旦掌握了数据,我们便可以进入人工智能机器学习的业务,该业务将揭示哪些治疗有效,哪些无效”。
IBM持续从合作伙伴那里积累数据。尽在癌症诊断和护理方面,公司就和Memorial Sloan-Kettering、Mayo诊所、哈佛和麻省理工附属的Broad Institute以及医疗测试巨头Quest Diagnostics。Sloan-Kettering纪念癌症中心已经制作了一个通过筛查期刊文献来确定治疗方案的系统。该系统已经在弗罗里达的木星医疗中心和印度的医疗连锁店进行了推广。在研发药物方面,Watson健康和巴罗神经研究所合作发现了与ALS疾病从未联系到一起过的5个关联基因,和安大略省大脑研究所合作确认21种可能的替代药物。
Watson在改善健康结果、降低开销方面会有所作为吗?可能吧,专注健康护理、投资人工智能健康护理方面的创业公司的风投公司Bessemer Venture Partners的合伙人Stephen Kraus这样评价到。“IBM一直是真刀实枪的在做”,Kraus称。“这不是像哄抬股价那样放出烟雾弹”。但Kraus和其他专家一样怀疑不切实际的时间表和承诺,其中的一些质疑声来自IBM自身。“这实现起来很困难”他说到。“Watson今天不会实现,可能5年之后也不会实现,而且它不会取代医生”。