导航菜单

诺如病毒-AI 辨识气味、具有嗅觉 ?谷歌依据分子的化学结构来猜测分子气味(附论文)

谷歌的研究人员正用一种新技术训练神经网络,以便根据分子的化学结构来预测分子气味。

狗鼻子特写

谷歌有自己的香水,至少该公司的一个研究团队在搞这方面的研究。这种混合气味在法国专业调香师的指导下配制而成,带有诺如病毒-AI 辨识气味、具有嗅觉 ?谷歌依据分子的化学结构来猜测分子气味(附论文)香草、茉莉、甜瓜和草莓的气味。在厨房里放有一小瓶香水的Alex Wiltschko说:“闻起来还不错。”

谷歌不会在短期内推销这种香水,但正涉猎我们生活的另一个方面:气味。周四,谷歌Brain的研究人员在预印本网站Arxiv上发表了一篇论文,介绍了他们如何训练一套机器学习算法,根据分子的结构来预测分子气味。这与为世界上大部分地区提供地图一样有用吗?也许不。但是就嗅觉领域而言,它有望帮助解决一些长期存在的重大问题。

气味这门学科落后于其他许多领域。比如说,光在几个世纪前就已被深入了解。17世纪,艾萨克牛顿使用棱镜将太阳的白光分成我们现在熟悉的红、橙、黄、绿、青、蓝、紫彩虹颜色。随后的研究表明,我们认为不同的颜色实际上是不同的波长。色轮简单直观地表示了这些波长相比怎样,以及随着波长逐渐变短,相应的颜色从红色和黄色逐渐变为蓝色和紫色。气味却没有这样的参照指南。

如果说波长是光的基本成分,那么分子是气味的基础。那些分子进入我们的鼻子时,与受体相互作用,受体将信号发送到我们大脑的一小部分(名为嗅球)。突然我们想到了“嗯,爆米花!”,科学家们观察波长就能知道它会呈什么颜色,可是面对分子和气味,他们做不到这样。

实际上,通过分子的化学结构搞清楚分子的气味极其困难。领导谷歌研究团队开展这个项目的Wiltschko说,只要改变或去掉一个原子或键,“气味立马从玫瑰味变成臭鸡蛋味。诺如病毒-AI 辨识气味、具有嗅觉 ?谷歌依据分子的化学结构来猜测分子气味(附论文)”

以前有研究人员尝试使用机器学习来检测使一种分子闻起来如大蒜、另一种分子闻起来如茉莉花的模式。研究人员在2015年发起了DREAM嗅觉预测挑战赛。该项目征集了数百人描述的气味,研究人员测试不同的机器学习算法,查看是否可以训练这些算法来预测分子的气味。

另外几个团队将AI运用于该数据,取得了成功预测的结果。但Wiltschko领导的团队采用了一种不同的方法。他们使用一种名为图神经网络(GNN)的技术。大多数机器学习算法都要求信息采用矩形网格的格式。但是,并非所有信息都适合这种格式。GNN可以查看图,比如社交媒体网站上朋友组成的网络或来自期刊的学术引用组成的网络。它们可以用来预测社交媒体上你的下一个朋友会是谁。在这种情况下,GNN可以处理每个分子的结构,并明白在一个分子中,碳原子与氮原子相距5个原子。

谷歌团队使用了来自调香师的近5000个分子,这些人嗅觉灵敏,仔细地将每个分子与“木头味”、“茉莉味”或“甜味”等描述进行匹配。研究人员使用数据集约三分之二的部分来训练网络,然后测试是否可以预测剩余分子的气味。结果很有效。

实际上,在第一次迭代中,GNN的效果与其他团队创建的模型一样好。Wiltschko说,团队改进模型后,效果可能会变得更好:“我认为我们推动了这个领域向前发展。”

与任何机器学习工具一样,谷歌的GNN受到数据质量的制约。不过,美国冷泉港实验室的研究员Alexei Koulakov表示,该项目对于将成千上万个新分子添加到气味数据集中非常有价值,这类数据集通常比较小;而且该数据“有望成为将来改进诸如此类的算法的基础。”Koulakov指出,尚不清楚我们是否可以从机器学习模型中了解关于人类嗅觉的任何知识,因为神经网络的设计与人类嗅觉系统不一样。

AI如何感知气味与我们人如何感知气味可能是两码事。两个分子的气味可能不一样,但连训练有素的鼻子也会将它们同同标记为“木头味”或“泥土味”。Wiltschko说:“这是要注意的一大问题。”

他还承认,GNN在所谓的手性对(chiral pair)这个关键的方面不尽如人意;手性对有同样的原子和键,但以彼此的镜像来排列。不同的方向意味着它们的气味完全不同。香菜和绿薄荷就是一个例子。但是GNN会将它们归为同一类。Wiltschko说:“我们知道我们的数据集中有手性对,我们知道我们不可能正确地预测它们。”下一步就是弄清楚如何处理这个问题。

此外,这项研究没有在气味的混合或组合方面告诉我们太多信息,气味组合有望从根本上改变我们对单个分子的认知。但是弄清楚什么特性或模式导致分子会有某种气味对于该领域来说将是巨大的进步。莫奈尔化学感知中心的气味研究员Johannes Reisert说:“如果我们能够做到这一点,我认为那将是相当了不起的壮举。”最终,我们可以为气味创建一种色轮,直观地表明哪些分子靠得更近、哪些分子相互关联。Reisert承认谷歌项目仍在完善之中,但这是“向前迈向的一步。”

预测气味的图神经网络

由于分子好比图:原子构成顶点,键构成边,因此GNN是理解分子的首选的天然模型。但是如何将分子结构转化为图表示呢?最初,使用任何青睐的特征(原子特性和原子电荷等),将图中每个节点表示为一个向量(vector)。随后在一系列消息传递步骤中,每个节点将当前向量值广播给每个邻居节点。然后,更新函数收集发送给它的全部向量,生成更新后的向量值。该过程可能重复多次,直到最终通过求和或求平均,将图中的所有节点汇总为单个向量。然后,可以将代表整个分子的这单个向量作为学到的分子特征传递到完全连接的网络中。该网络的输出可预测香水专家提供的气味描述符。

每个节点都表示为一个向量,向量中每个条目最初都编码一些原子级信息

针对每个节点,我们查看相邻节点并收集其信息,然后使用神经网络将该信息转换为中心节点的新信息。这个靡过程是迭代执行的。GNN的其他变体利用边和图层面的信息。

预测气味的GNN示意图。我们将分子结构转换成图,这些图馈入到GNN层中,以学习节点的更佳表示。这些节点被简化为单个向量,并传递到用于预测多个气味描述符的神经网络。

这种表示对原子的空间位置一无所知,因此它无法区分立体异构体(stereoisomer),这是由相同原子组成但结构略有不同、因而有不同气味的分子,比如(R)-和(S)-香芹酮。不过,我们发现即使不区分立体异构体,实际上仍可以很准确地预测气味。

针对气味预测,与之前不直接编码图结构的最前沿方法(比如随机森林)相比,GNN一贯表现出更高的性能。改善的幅度取决于人们试图预测哪种气味。

按AUROC分数来衡量,GNN在气味描述符方面对照强大基准(strong baseline)的性能。随机选择示例气味描述符。越接近1.0意味着越好。在大多数情况下,GNN的性能大大超过堪称行业标准的基准,与其他度量指标(比如AUPRC、召回和精度)相比,性能相似。

从模型中学习,并扩展到其他任务

除了预测气味描述符外,GNN还可应用于其他嗅觉任务。比如说,以使用有限的数据对新的或提炼的气味描述符进行分类为例。针对每个分子,我们从模型的中间层提取学到的表示,该中间层针对我们的气味描述符进行了优化,我们称之为“气味嵌入”。这就好比是颜色空间(比如RGB或CMYK)的嗅觉版本。为了了解这种气味嵌入对于预测相关但不同的任务是否有用,我们设计了一些实验,针对相关任务来测试学到的嵌入——学到的嵌入最初并非针对这些任务而设计。然后,我们将气味嵌入表示的性能与常见化学信息表示进行了比较,这种化学信息表示编码分子的结构信息,但与气味无关,结果发现气味嵌入的用途可扩大到处理几项颇具挑战性的新任务,甚至在一些任务方面与最前沿技术相媲美。

嵌入空间的2D图,一些示例气味高亮显示。左:每种气味都集中在自己的空间。右:气味描述符的诺如病毒-AI 辨识气味、具有嗅觉 ?谷歌依据分子的化学结构来猜测分子气味(附论文)层次性质。阴影和轮廓区域使用嵌入的核心密度估计来计算。

未来的工作

在机器学习领域,气味仍是最难以捉摸的感官,我们很高兴通过进一步的基础研究,继续揭示这方面的真相。未来研究拥有无限的潜在价值,涉及方方面面:设计更便宜、更加可持续生成的新嗅觉分子,对气味进行数字化处理,甚至有一天让丧失嗅觉的人可以嗅到玫瑰味(当然还有臭鸡蛋味)。我们希望,通过最终创建和共享高质量的开放数据集,让这个问题引起机器学习界更多人士的注意。

论文点击“阅读原文”直接下载~~

二维码