OK COMPUTER: Как нейросети влияют на музыку

На наших глазах происходит стремительная технологическая революция: постепенно наступает творческий симбиоз между человеком и искусственным интеллектом. Нейросети нового поколения уже смогли проявить себя и в музыкальной сфере. Несмотря на то, что еще совсем недавно подобное считалось невозможным, сегодня машина может писать новую музыку и переписывать существующую. В том, почему так получилось, разбирался Сергей Августовский.

Little by little, или Как мы сюда попали

Нейросети сами по себе ― не новая вещь. Первые теоретические работы, посвященные «искусственным нейронным сетям», появились еще в середине прошлого века, как попытки сделать математическую модель человеческого мозга. Эта модель состояла из связанных друг с другом точек («нейронов»), при этом сила, или «вес» связей между отдельными нейронами мог отличаться. В таком виде концепция и перекочевала в современные нейросети.

Довольно долго развитие нейросетей было ограничено скромными возможностями техники. Шутка ли: за последние 30 лет вычислительные мощности среднего компьютера выросли в миллионы раз (sic). Однако после того, как в конце нулевых начался стремительный рост мощности компьютеров, возникли и значительные успехи в развитии нейросетей. Важной вехой стало появление в 2006 году ImageNet ― нейросети, способной распознавать лица людей на фотографиях с точностью более 80% (пока речь идет о распознавании человеческих лиц вообще, а не определении, какой именно человек попал в кадр).

К сожалению, довольно быстро развитие нейросетей столкнулось с «проблемой исчезающего градиента»: ситуацией, когда добавление новых данных при обучении нейросети вносило настолько малые исправления в связи нейронов, что фактически не влияло на конечный результат. Так, если вы пытались “скормить” ИИ объем данных, равный изначальному (то есть удвоить обучающий объем), вес отдельных связей изменялся лишь на тысячные доли процента, а следовательно попытки дальнейшего обучения были тщетны.

Ситуацию изменил прорыв, совершенный в 2017 году командой Google Brain и описанный в статье Attention Is All You Need. Они изобрели архитектуру Transformer, которая добавила механизм внимания, позволяющий продолжить обучение и тонкую настройку нейросети. После этого начали стремительно развиваться компании, которые создают собственные модели нейросетей и ищут им практическое применение (здесь наступает момент, когда мы вспоминаем про OpenAI и их сервис ChatGPT).

Everything in its right place: зачем нейросети в области музыки

О таких примерах использования ИИ, как алгоритмы рекомендаций в спотифай, отслеживание авторских прав и плагины для мастеринга достаточно просто упомянуть, потому что они хоть и влияют на музыкальную индустрию, но не так заметно, как новинки последних лет. А вот с новинками стоит познакомиться подробнее.

Планку в области генеративного ИИ задают Majenta Studio от Google, MuseNet от OpenAi и AIVA (Artificial Intelligence Virtual Artist) от AIVA Technologies. Все три нейросети генерируют музыку довольно невзрачную и не очень впечатляющую в сравнении с авторской музыкой, но не стоит забывать, что несколько лет назад результаты «творчества» ИИ вообще было сложно слушать без слез, тогда как теперь это совершенно точно музыка (пусть и со слабым тематизмом, рыхлой формой и невыразительной инструментовкой). И есть все основания ожидать, что еще через пару лет ИИ будет конкурировать со средним композитором.

Genesis от AIVA

Отдельно стоит рассказать о нейросетях ad hoc, которые не рассчитаны на создание «музыки вообще», а заточены на воспроизведение стиля конкретного композитора или исполнителя. Здесь заслуживает внимания проект Lost Tapes Of 27 Club, который воссоздал голоса нескольких представителей «клуба 27» (списка выдающихся исполнителей, погибших в 27 лет от наркотиков и/или психических болезней). Так на свет появилась, в частности, «новая песня Курта Кобейна» Drowning Sun:

Другой подобный случай, заслуживающий внимания ― песня Daddy’s Car от Sony CSL (Computer Science Laboratories). В этом случае имеет место «волосатая рука педагога»: не совсем все и не целиком за один раз было сделано нейросетью. По словам авторов, эта песня ― результат исследования «поточных машин», которые анализируют стиль исполнителя. Из наиболее удачных фрагментов вывода собрали и записали песню в стиле Beatles. Однако стоит отметить, что этот проект дал свои плоды еще в 2016 году ― за пять лет до того, как нейросети стали мейнстримом.

Особняком стоит экспериментальный сервис Google Duet. Сейчас это сайт, где ИИ пытается импровизировать с вами вместе (но выходит это у него довольно неуклюже). Тем не менее, этот эксперимент намекает нам, над чем сейчас, вероятно, ведется работа (как прозорливому наблюдателю на сегодняшний расцвет ИИ могла намекнуть Daddy’s Car): спустя три-пять лет стоит ожидать появления интерактивной нейросети, которая сможет выступать в ансамбле с живыми музыкантами на одной сцене. Это довольно смелое предположение, но по меньшей мере стоит держать новости на эту тему в фокусе.

Where I End And You Begin: как нейросети заменяют реальность мемами

Если бы на фоне расцвета нейросетей, дипфейков и продвинутого автотюна средствами ИИ не появилось целой плеяды мемов, стоило бы забеспокоиться о судьбе человечества. В ютубе возник целый жанр ИИ-каверов на популярные песни.

Например, крайне популярный для ИИ-каверов персонаж ― Фрэнк Синатра. Его каверы отличаются, пожалуй, лучшим качеством. И как здесь вполне объяснимы причины и результаты: с одной стороны стиль пения Синатры стал одним из эталонов джазового вокала, а с другой есть целое направление джаз-каверов любой не-джазовой музыки, которые зачастую исполняют традиционным синатровским стилем. В итоге у пользователей кавер-нейросетей есть целая библиотека записей, где нужно лишь немного изменить тембр.

Кавер Синатры на кавер песни из игры Five Nights At Freddy’s. (Да, кавер на кавер. Нет, кавера на другой кавер на третий кавер найти не удалось)

Несмотря на то, что не всем так повезло на подражателей, как Синатре, непреодолимого препятствия для удачного «продолжения карьеры» нет ни для кого. Есть каверы с голосами Майкла Джексона, Элвиса Пресли, Гомера Симпсона и Винни Пуха, которые исполняют почти любые популярные песни.

All I Need: все, что нам нужно?

В ближайшие годы всем ― и творцам, и слушателям, и правообладателям ― придется научиться жить в этом новом мире, где наравне с композиторами музыку пишет машина, песню любого исполнителя перепевают десятком других голосов в первые дни после публикации, и выдачей всего этого великолепия в ленте управляют корпорации, которые сами не только вкладываются в генеративный ИИ, но и обладают правами на творчество десятков всемирно известных групп и могут генерировать их новые песни по щелчку пальцев. Картина создается мрачноватая, но если копнуть глубже ― все не так печально.

Во-первых, у нас есть по меньшей мере пять, а то и все десять лет, чтобы привыкнуть к дивному новому миру. Во-вторых, еще не было в истории случаев, когда технический прогресс уничтожил больше вакансий, чем создал ― навряд ли композиторы исчезнут как класс; скорее, их станет больше и у них появятся новые специализации (как вам «менеджер ИИ-генератора музыки»?). Ну и в третьих, вполне возможно, что с музыкальной индустрией произойдет примерно то же, что произошло с театрами после появления кино: часть применит свои таланты в новой сфере, часть будет востребована как представители элитарного искусства.

Ну и, конечно, «музыкальная карьера» теперь доступна любому человеку, особенно если он стал мемом.