Нейросеть Stable Diffusion знаменита многим. Она разрешает генерировать стереоизображения по текстовому описанию. Но, как угадало, с её подмогой можно также формировать и музыку. Сущность в том, что система может творить аудиоспектрограммы — визуальные стереоизображения звуковых частот в треке. После этого нужно лишь «отразить» обретенный звук. В спектрограмме (или сонограмме) на оси изображен режим воспроизведения частот слева вправо. По оси Y размещаются данные о частотах звука, а колер пикселей задаёт амплитуду звука в всякой момент часы. Нейросеть обучили на сонограммах, какие характеризуют гармоничные жанры или звуки. В плоде вышла Riffusion — нейросеть, способная генерировать звук из стереоизображения, какое создаётся по текстовому описанию. Для вывода именно тропинки используется Torchaudio. При этом разработчики смогли понудить нейросеть генерировать таковые аудиоклипы, какие могли бы плавно «перетекать» дружок в дружище. То есть, темп музыки не меняется обвально. Веб-интерфейс можно арестовать тут. Нейросеть скачать можно тут. Рискнуть онлайн тута. Сгененрировать спектрограмму тута. Спозаранок передавалось, что художницы стали подлинную борьбу против нейросети на ArtStation.