如何用深度学习打造自己的音乐推荐系统_财报网

首页 > 出国移民 > 海外生活 >

如何用深度学习打造自己的音乐推荐系统

来源：简书发布时间：2020-05-22 11:06:33

【嵌牛导读】：深度学习如今已经在生活的各个方面都被广泛应用。它也可以用来进行打造音乐推荐系统。

【嵌牛鼻子】：深度学习音乐推荐系统

【嵌牛提问】：如何用深度学习发现一首歌属于哪个流派?

【嵌牛正文】：

这些年我(作者 Matt Murray——译者注)在音乐上可没少花钱，经常到一个叫JunoDownload的网站上付费下载 MP3 歌曲。这个数字音乐下载网站在 DJ 圈里很火，在上面能买到各种流派的歌曲。

总之这是一个非常不错的音乐资源，为在售的每首歌都提供了一个 2 分钟的 MP3 格式的试听样本。唯一的问题是····在这个网站上找到一首老歌实在是太困难了。

这个网站极度热衷推广新歌曲，当然这也说得过去，因为新歌卖得火就意味着赚的更多了。但是那些以前的老歌呢?

音乐推荐

其实在 JunoDownload 网站上已经存在一些推荐歌曲，在网站主界面上有在售歌曲排行榜，新歌排行榜，以及由一些 DJ 和网站编辑创建的推荐歌单。

在每首歌的页面上，窗口右手边显示了“购买了这首歌曲的人还买了”，“该歌手发布的其它歌曲”和“该唱片公司发布的其它歌曲”，这些信息倒也有用。

但是坐拥这么大的一个音乐数据库，我觉得这个网站上却唯独缺少基于内容的推荐类型，比如“你可能还喜欢”，也就是根据用户当前所听的歌曲和已购买的歌曲，向用户推荐他可能喜欢的同类歌曲。

当然我也知道，现在几乎所有的音乐 App 都已经有这种功能，但是亲自用深度学习技术创建一种能帮自己发现歌曲的系统，还是很酷的，对吧?所以我决定搭建一款音乐推荐系统。

过程

要想实现这个目标，需要几个步骤，包括获取数据、处理数据和训练模型。

整个工作流程涉及：

下载 MP3 文件

我需要做的第一件事就是下载大量 MP3 样本文件用作数据。

在爬取网站上超过 40 万首歌曲文件的单曲信息后，我会任意选择 9 种不同的音乐流派，并按这 9 个流派从每个流派中随机选择 1000 首歌曲。

这 9 个歌曲流派是：

碎拍音乐

雷鬼乐

慢摇

鼓打贝斯

经典电音

嘻哈乐

极简音乐

摇滚乐

迷幻舞曲

在接下来几天内，我下载了全部 9000 首 MP3 文件。

将音频转换为声谱图

一份音频文件内包含的数据非常多，所以这一步的大部分工作实质上就是浓缩音乐中的信息，提取主要特征并去除所有的噪声数据。基本上这是一项降维操作，首个步骤就是把音频转换为图像形式。

利用离散傅里叶变换法，我将音频信号转换为频域，以这种方式处理了全部 9000 个 MP3 音频文件，为每首歌保存了它们的声谱图。所谓声谱图就是声音频率的频谱随着时间变化的可视化表示。图谱中颜色的深浅表示该频率下的声音大小。

我选择创建单色的声谱图，如下所示：

这是从嘻哈单曲中生成的约为 20 秒的音频，其中声谱图中 X 轴为时间，Y 轴为声音频率。

将图像分为 256 x 256 的正方图

如果用这些数据训练模型，我需要将所有的图像具有相等的维度，所以我将全部声谱图分割为 256 x 256 的正方图。这表示每张图上约为 5 秒的音频。

现在我总共有超过 18 万 5 千张图像，每张图像都有一个标签，注明了音乐流派。

我将数据分为包含 12 万张图像的训练集、包含 4 万 5 千张图像的验证集和 2 万张图像的 Holdout 验证集。

用图像训练一个卷积神经网络

我用我的图像数据训练了一个 CNN 网络，我需要教它来识别不同类型的音乐在声谱图图像中“看起来”是怎样的，所以我使用了音乐流派标签训练它从图像中识别音乐流派。

下面是 CNN 工作流的可视化图：

首先以上图左上角的声谱图开始，将它转换为一个由表示每个像素中颜色的数字组成的矩阵。从这里开始，数据会经过工作流中的多个层级，每经过一层，矩阵的形状就会被转换，直到最终抵达右下角的 softmax 分类器。这个分类器是一个由 9 个数字组成的向量，包含了 CNN 将 9 个音乐流派分配给声谱图的概率。

还有一步就是全连接层，这是一个由 128 个数字组成的向量，它们实质上是在图像经过多个网络层传递后从中提取的 128 个音乐特征。思考这一层的另一种方法是原始图像中的所有关键信息都已浓缩为“解释”图像的 128 个数字。

那么我们怎么使用 CNN 模型呢

经过训练后，模型能够以 75 的准确率分类音乐流派，我觉得这个准确率还可以，因为划分音乐流派有时是相当主观的，而且音乐有时常常也不止一个流派。下面是模型分配各个流派的准确率：

碎拍音乐：91%

雷鬼乐：90%

慢摇：79%

鼓打贝斯：78%

经典电音：71%

嘻哈乐：71%

极简音乐：70%

摇滚乐: 63%

迷幻舞曲：61%