当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 对于机器学习而言,区分异常数据或有显著差异数据至关重要。谷歌在 NeurIPS 2019 论文中提出并发布了针对基因组序列 OOD 检测的现实基准数据集,进而提出一种基于似然比的解决方案,可显著

对于机器学习而言,区分异常数据或有显著差异数据至关重要。谷歌在 NeurIPS 2019 论文中提出并发布了针对基因组序列 OOD 检测的现实基准数据集,进而提出一种基于似然比的解决方案,可显著提高 OOD 检测的准确性。AI 科技评论将谷歌对该方法的官方解读编译如下。

深度学习科学家要成功部署机器学习系统,需要系统能够区分出异常数据或与训练中使用的数据有显着差异的数据。

由于深度神经网络分类器可能会将以高置信度将分布外(ODD)的输入分类到分布内的类别中,因此区分异常数据或有显著差异数据是十分重要的。当我们利用这些预测为现实决策提供依据时,异常数据检测将尤为重要。

例如,将机器学习模型应用于基于基因组序列的细菌检测,就是一项具有挑战性的现实应用。细菌检测对于败血症等传染病的诊断和治疗,以及食源性病原体的鉴定都非常关键。

近些年来,随着新细菌种类不断被发现,虽然基于已知分类训练的神经网络分类器通过交叉验证达到了很高的测量准确性,但部署模型仍具有高的挑战性,因为现实数据在不断进化发展,并且将不可避免地包含以往训练数据中从未出现过的基因组(OOD 输入)。

图1 近些年来,随着新的细菌种类逐渐地被发现。将已知的分类数据输入基于已知分类数据训练的分类器能够达到很高的准确性,这是因为输入的分类数据是已知的,但它可能将已知分类数据中混合了未知分类数据(如:ODD 数据)的输入进行错误的分类,并且具有很高的置信度。

在 NeurIPS 2019 发表的论文《分布外检测的似然比》(Likelihood Ratios for Out-of-Distribution DetecTIon)中,谷歌受到上述新细菌种类检测这类现实问题的启发,提出并发布了针对基因组序列 OOD 检测的现实基准数据集。

论文地址:https://arxiv.org/abs/1906.02845

实现代码 GitHub 地址:https://github.com/google-research/google-research/tree/master/genomics_ood

他们利用基于基因组序列的生成模型测试了 OOD 检测的现有方法,发现似然值——即输入来自使用分布不均数据进行估算的分布数据的模型概率——通常是错误的。在最近的图像深度生成模型研究工作中,他们也观察到了这种现象,并通过统计背景影响来解释这种现象,进而提出一种基于似然比的解决方案,可以显著地提高 OOD 检测的准确性。

一、为什么密度模型无法应用于 OOD 检测?

为了模拟实际问题并系统地评估不同的方法,他们建立了一个新的细菌数据集,使用的数据来自美国国家生物技术信息中心(NCBI )对外开放的原核生物目录基因组序列数据。

为了模拟测序数据,他们将基因组片段化为当前测序技术通常使用的 250 个短序列长度的碱基对。然后,其将分布内和分布外的数据按发现日期进行分离,以便截止时间之前被发现的细菌种类被定义在分布内,在之后发现的被定义为分布外(OOD) 。

然后,他们基于分布内的基因组序列训练深度生成模型,通过绘制似然值曲线,检验模型辨别输入的分布内和分布外数据的能力。 OOD 序列似然值的直方图与分布内序列似然值高度重合,则表明生成模型无法区分在两个种类之间进行的 OOD 检测结果。

在图像深度生成模型的早期研究中(相关阅读参考:https://arxiv.org/abs/1810.09136)也得到了类似的结论。例如,利用 Fashion-MNIST 数据集(由衣服和鞋类的图像组成)训练 PixelCNN ++ 模型,比来自 MNIST 数据集(包括数字0-9的图像)的 OOD 图像分配了更高的似然值。

图2 左:分布内和分布外(OOD)基因组序列的似然值直方图。 似然值未能分辨出分布内和OOD基因组序列。 右:Fashion-MNIST 数据集训练模型、MNIST 数据集估计的似然值直方图。 模型在OOD(MNIST)图像上比在分布内图像分配了更高的似然值。

在研究这种失败模型时,他们观察到背景统计可能影响了似然值的计算。为了更直观地理解该现象,假设输入由两个部分组成:(1)以背景统计为特征的背景成分,(2)以指定于分布内数据专用的模式为特征的语义成分。

例如,可以将 MNIST 图像建模为背景加语义。当人类解读图像时,可以轻松地忽略背景信息而主要关注语义信息,例如下图中的“ /”标记。但是当为图像中的所有像素计算似然值时,计算结果中同时包括了语义像素和背景像素。虽然他们只需使用语义的似然值进行决策,但原始的似然值结果中可能大多数都是背景成分。

图3 左上:Fashion-MNIST 的示例图像。 左下:MNIST 的示例图像。 右:MNIST 图像中的背景和语义成分。

二、OOD 检测的似然比

他们提出了一种去除背景影响并专注于语义成分的似然比方法。

首先,受遗传突变的启发,他们利用扰动输入方法训练背景模型,并通过随机选择输入值的位置,将其替换为另一个具有相等概率的值。为了成像,他们从从256个可能的像素值中随机选择输入值;针对DNA 序列,他们从四个可能的核苷酸(A,T,C或G)中选出输入值。此过程中,适量的扰动会破坏数据的语义结构,导致只能捕获到背景。

接着,他们计算完整模型与背景模型之间的似然比,去掉了背景成分,这样就只保留了语义的似然值。似然比是背景对比得分,即它抓住了语义与背景对比的意义。

为了定性评估似然值与似然比之间的差异,他们绘制了在 Fashion-MNIST 数据集和 MNIST 数据集中每个像素的似然值和似然比值,创建了与图像相同的尺寸的热图。

这使他们可以分别直观地看到哪些像素对于这两项值的贡献最大。从对数似然热图中可以看到,对于似然值而言,背景像素比语义像素的贡献更多。

事后看来这并不足为奇,这是由于背景像素主要由一连串零组成,因此很容易被模型学习。

MNIST 和 Fashion-MNIST 热图之间的比较则说明了为什么 MNIST 返回更高的似然值——仅仅是因为它包含了更多的背景像素!相反,似然比的结果更多地集中在语义像素上。

图4 左:Fashion-MNIST 和 MNIST 数据集的对数似然热图。 右:Fashion-MNIST 和 MNIST 数据集的似然比热图,具有更高值的像素会具有更浅的阴影。 似然值主要由“背景”像素决定,而似然比则集中在“语义”像素上,因此更适合用于 OOD 检测。

这种似然比方法修正了背景影响。他们基于 Fashion-MNIST 训练 PixelCNN ++ 模型,然后在 MNIST 图像数据集进行 OOD 检测,实验结果得到了显著改善,AUROC 评分从 0.089 提高至 0.994 。

当他们将似然比方法应用于基因组基准数据集这一极具挑战的问题时,对比其它 12 种基线方法,该方法表现出了最佳性能。

不过他们也表示,尽管该似然比方法在基因组数据集上达到了最先进的性能,但离将模型部署到实际应用中的高准确性要求仍存在一定距离。 他们鼓励研究人员努力去解决这一重要问题,并改善当前的最新技术。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭