让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了
发布日期:2022-05-10 09:52    点击次数:167

 

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

听一遍曲子,就能显露曲谱,还能或然演奏,何况还摆布“十八般乐器”,钢琴、小提琴、吉他等都不在话下。

这就不是人类音乐大师,而是谷歌推出的“多任务多音轨”音乐转音符模子MT3。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

最初需要解释一下什么是多任务多音轨。

频繁一首曲子是有多种乐器合奏而来,每个乐曲便是一个音轨,而多任务便是同期将不同音轨的曲谱同期规复出来。

谷歌已将该论文投给ICLR 2022。

规复多音轨曲谱

比拟于自动语音识别 (ASR) ,自动音乐转录 (AMT) 的难度要大得多,因为后者既要同期转录多个乐器,还要保留细致的音高和时候信息。

多音轨的自动音乐转录数据集更是“低资源”的。现存的开源音乐转录数据集一般只包含一到几百小时的音频,比拟语音数据集动辄几千上万小时的阛阓,算是很少了。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

先前的音乐转录主要逼近在特定于任务的架构上,针对每个任务的各式乐器量身定制。

因此,作家受到低资源NLP任务移动学习的启发,诠释注解了通用Transformer模子不错扩充多任务 AMT,并显耀提高了低资源乐器的性能。

作家使用单一的通用Transformer架构T5,何况是T5“小”模子,其中包含糟蹋6000万个参数。

该模子在编码器妥协码器中使用了一系列花式的Transformer自扫视力“块”。为了产生输出标识序列,该模子使用联想自追溯解码:输入一个输入序列,将估计出下一个出现概率最高的输出标识附加到该序列中,并重叠该历程直到抑遏 。

MT3使用梅尔频谱图四肢输入。关于输出,作家构建了一个受MIDI圭表启发的token词汇,称为“类MIDI”。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

生成的曲谱通过开源软件FluidSynth渲染成音频。

此外,还要处分不同乐曲数据集挣扎衡和架构不同问题。

作家界说的通用输出token还允许模子同期在多个数据集的混杂上进行检会,肖似于用多言语翻译模子同期检会几种言语。

这种要津不仅简化了模子联想和检会,何况加多了模子可用检会数据的数目和各样性。

骨子着力

在通盘谋划和所罕有据集上,MT3恒久优于基线。

检会本事的数据集混杂,比拟单个数据集检会有很大的性能栽种,异常是关于 GuitarSet、MusicNet 和 URMP 等“低资源”数据集。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

最近,谷歌团队也放出了MT3的源代码,并在Hugging Face上放出了试玩Demo。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

不外由于调动音频需要GPU资源,在Hugging Face上,提议诸君将在Colab上入手Jupyter Notebook。

论文地址: https://arxiv.org/abs/2111.03017

源代码: https://github.com/magenta/mt3

Demo地址: https://huggingface.co/spaces/akhaliq/MT3