利用人工智能识别歌曲风格，从而进行分类

时间：2020-07-16 17:48:02

关键字：人工智能机器学习

手机看文章

扫描二维码
随时随地手机看文章

[导读] 任何曾经编辑过磁带或SpoTIfy播放列表的人都知道，当他们在歌曲中传递出了某种情感时，他们就会取得成功。这就是为什么Gracenote的音乐数据专家长期以来一直根据情绪和情感对世界万千繁杂音乐

任何曾经编辑过磁带或SpoTIfy播放列表的人都知道，当他们在歌曲中传递出了某种情感时，他们就会取得成功。这就是为什么Gracenote的音乐数据专家长期以来一直根据情绪和情感对世界万千繁杂音乐进行分类的原因。

而Gracenote团队实际上并没有真正逐首听过他们数据库中成千上百的歌曲。取而代之的是，它教会了电脑去识别情绪，使用机器聆听，借助人工智能（AI）来判断一首歌曲的风格，进而判别是梦幻、性感，还是纯粹的悲伤风格。

“机器学习是我们所具有的一个巨大的战略优势，”Gracenote的总经理BrianHamilton在最近的一次采访中说。

据悉，Gracenote在10年前就开始了它所谓的“声音情绪分类”工作。随着时间的推移，传统算法越来越多地被先进的神经网络算法所取代，这项工作也随之进化了。这也已经成为音乐行业对人工智能越来越依赖的最佳例证之一。

举例来说，电脑是如何得知LadyGaga的Lovegame是一首性感热曲的呢？

首先，人工智能是不知道你的感受的。“我们不知道音乐作品会对个体听众产生了什么影响，”Gracenote的研究副总裁在接受采访时表示。相反，它试图将音乐家的创作意图作为一种内在的情感品质，并对这些品质进行辨别。换句话说：它想要教电脑识别哪些歌曲是悲伤的，而不是识别哪首歌会让听众感到忧郁，因为你的感受可能是因为个人的经历而产生不同的情绪。

教电脑识别音乐中的情绪有点像心理治疗

首先，你得说出你的感受。Gracenote的音乐团队最初开发了一种分类标准，这包括了超过100种氛围和情绪，之后又将这个标准扩充到了400多种类别。

其中一些是“性感”和“时髦”这样比较经典的类别，但也有一些极其具体的类别，比如“梦幻感”、“苦乐参半的柔情”和“绝望的疯狂”。新的类别不断被添加，而另一些则根据系统的表现进行了微调。

“这是一个更新换代的过程，”Gracenote的内容架构和探索主管彼得迪马利亚解释说，“分类在不断进化和演进。”

除了这一系列情绪之外，Gracenote还使用所谓的“训练集”来进行机器学习。该公司的音乐专家挑选了大约4万首歌曲作为不同类别歌曲的例子。

汇编这种训练集本身就是一门艺术。迪马利亚说：“我们需要确保提供了正确的范例。”与此同时，范例歌曲必须是这些情绪的最佳例证。他说：“有些歌儿风格有点模糊。”

目前的培训内容包括LadyGaga的Lovegame，这首是性感热曲的范例；电台司令的PyramidSond是哀伤风格的范例；而碧昂斯的MeMyself&I则是感性和亲密风格的范例。

就像情绪本身一样，训练集需要不断地被更新以保持新鲜。迪马利亚说：“艺术家们一直在创造新的音乐表达方式。我们需要确保系统已经听到了这些声音。”尤其是快速发展的音乐类型，如电子乐和嘻哈音乐，需要频繁更新。

对电脑而言，它肯能会将压缩过的歌曲识别为一种音乐风格。一旦系统接受了这些歌曲的训练，它就会被应用到数百万的音轨上。但电脑不会一首一首地听播放列表上的全部歌曲。

相反，Gracenote的系统将每条音轨切割成700毫秒的片段，然后从任何这类片中提取大约170种不同的声学值，比如它们的音色。此外，有时一首歌分辨相似的风格须要用到更长的片段。然后这些值会与现有数据进行比较，这样一来将每首歌曲分类。

这样的结果不仅是得到情绪风格，而是得到每种情绪风格的档案。在此期间，Gracenote的团队必须定期确保不会出错。“混音是一件非常复杂的事情。”乐器、人声和各种效果叠加，并且音乐本身会被针对在汽车音响播放或在流媒体播放的不同而被优化：这样一来电脑可以听的东西太多了，这包括了那些不属于音乐本身东西。“它可以捕捉到很多不同的东西，”他说。

在无人监督的情况下，Gracenote的系统可能会决定关注被压缩的部分，并将它们与情绪相匹配，而Cremer则开玩笑说系统可能会决定：“这些都是96kbps，所以这些歌曲属于悲伤风格。”

被情绪分类的世界音乐

Gracenote将音乐分类按照情绪分类，它之后就会把数据传递给客户，而客户使用它的方式多种多样。较小的媒体服务商通常会授权Gracenote获取他们的音乐数据，并进行端对端的音乐整理和推荐。例如，媒体中心应用开发商Plex使用该公司的音乐推荐技术，为客户提供个性化播放列表，以及被该公司称作“情绪电台”的服务。

Plex的用户可以选择“苦乐参半的柔情”这一风格，然后等着听到MazzyStar乐队的迷幻之音。

Gracenote还向包括苹果和SpoTIfy在内的一些业内最大的音乐服务运营商提供数据。这些大公司通常不喜欢公开谈论他们是如何使用Gracenote的数据的。更大的流媒体服务公司一般都倾向于使用自己的音乐推荐算法，但他们通常仍会利用Gracenote的情绪数据来训练和改进这些算法，或者帮助策展人预先选择歌曲，这些歌曲随后被编辑为播放列表。

这意味着乐迷们可能会敏锐地意识到Gracenote在情绪分类上做的工作，而其他人可能无法察觉该公司的人工智能技术是如何帮助他们提高音乐体验的。

不管怎样，Gracenote必须确保其数据在国际上得到妥善的转码，尤其在它即将在别的国家开展业务之际。

该公司宣布将在欧洲和拉丁美洲开始销售其音乐数据产品，其中包括情绪分类标准，以及在分类中使用到的描述性、整洁的元数据。

为了确保这种转码过程中没有任何损耗，该公司聘请了国际编辑，他们不仅翻译了“感伤”一词，而且还会听一些歌曲，以找出在他们的文化背景下哪种表达最有效。

国际关注是双向的

Gracenote也不断在全球范围内搜寻新的国际声音，以满足其训练集的需求。“我们的数据可以用于所有那些即将消失的声音，”他说。

像Gracenote这样的公司不仅依赖人类，而且还依赖人工智能和机器监听等技术；最终，我们将会能够对全世界所有音乐进行分类。

在很多方面，教计算机识别悲伤的歌曲实际上可以帮助人类获得更好、更有意义的音乐体验。

如果仅仅依靠人类进行分类，那么会有上百万首歌曲无法分类，而人们也无法获得个性化的音乐列表。

利用数据和技术来解锁世界音乐是他工作中最令人兴奋的部分之一，Cremer说：“我在这里的原因是要确保每个人都能接触到所有被妥善分类的音乐。”