Гостевой пост: «Как разговаривать с Suno, чтобы он не делал попсу?»

Терпеливый, но туповатый: как я разговариваю с Suno

Гостевой пост Олега «humanimalien» Пащенко для канала «Музыкальный ИИ»

Страницы автора: Bandcamp, Сайт, Telegram

Когда говорят «ИИ сделал музыку», в воображении большинства обычно возникает простой сценарий: человек написал одну строчку промпта, нажал кнопку, через тридцать секунд — релиз. У меня всё иначе, и не потому, что я люблю усложнять (хотя усложнять я люблю), а потому, что Suno в моём пайплайне работает как очень терпеливый, но туповатый сессионный музыкант, которому приходится по сто раз объяснять, что именно меня бесит. «Сделай грязно»; «убери этот героический подъём, мы не Marvel-саундтрек пишем»; «дай ощущение, что запись делалась в избушке в норвежском лесу, а не у Васи Вакуленко на студии Gazgolder». Из ста генераций я выкидываю девяносто пять; оставшиеся пять скачиваю — и вот тут уже начинается собственно производство так называемой музыки.

50 стемов и сборка дарк-джаза в DAW

Скачивать трек одним файлом — значит соглашаться с тем, что Suno уже принял за тебя все решения о балансе, реверберации и стереокартине. Я предпочитаю забирать стемы; иногда их получается сорок-пятьдесят на один трек, потому что я склеиваю в Adobe Audition сразу множество генераций — кусок одной версии, кусок другой, и так пока не получится то, чего в каждой отдельной генерации не было.

Мультитрек 48 кГц / 32 bit (float), кроссфейды, маркеры на местах склеек, Match Loudness для выравнивания громкостей между фрагментами разных генераций. Ozone Match EQ цепляю к каждому клипу — иначе на стыке слышно, что один кусок снят с одного «микрофона», а соседний с совсем другого.

Отдельная шина ROOM, куда я маршрутизирую звук с треков: параметрический эквалайзер (полосовой фильтр, чтобы не пускать в реверб ни суббас, ни верхний шелест), компрессор с довольно жёстким ratio и Studio Reverb со средним размером комнаты и длинным затуханием. Задача — дать трекам общее акустическое пространство и склеить куски разных генераций в одну комнату.

На мастер-шину идёт цепочка Ozone 12 Advanced: Equalizer, Impact, Imager, Clarity, Stabilizer, Dynamic EQ, Maximizer с True Peak и IRC 5. Пресеты у меня разные, под разные жанры и задачи; мастеринг одного трека может занять пять-десять вечеров, тогда как генерация сырья — пару часов в телефоне по дороге на работу.

Что важно понимать про стемы дарк-джазового материала: Suno иногда отдаёт их в довольно странных группировках — отдельный стем со щётками, отдельный с контрабасом, и третий, в котором перкуссия и саксофон зачем-то живут вместе. Не надо это лечить, а надо использовать как материал. Половина моего dark jazz собирается из того, что в исходной генерации звучало как недоразумение, но после извлечения в отдельную дорожку оказывается ровно той самой клаустрофобией, которой не было в Suno-мастере.

Persona на собственных (псевдо)связках

До появления Suno 5.5, в которой можно давать на вход свой собственный вокал, я пользовался ElevenLabs, который клонирует голос с нескольких десятков секунд материала; я писал примерно полминуты в дешёвый микрофон — говорил, шептал, рычал, визжал, — и из этой записи собирал Persona в Suno. Дальше Persona работает как тембровый референс: модель не копирует мой голос буквально, но удерживает его «телесность» — низ баритона, придыхание, и эту вот специфическую усталость, которую вы получите, если запоёте в три часа ночи после дня чтения лекций, а вам, как мне, 54 года.

Зачем это нужно, если можно просто взять дефолтную мужскую модель в Suno? Затем, что персона на собственном тембре снимает лишний слой посредничества: голос звучит так, будто это всё-таки как бы я, хотя физически я ничего не пел. Получается странная вещь: ИИ-модель воспроизводит то, что я мог бы спеть, если бы умел, но в том самом тембре, который у меня и так есть. Это не имитация и не подделка, а скорее что-то хонтологическое, вроде ghost-instrument, материал которого со мной имеет общую природу, а гипостазируется эта природа во что-то мне чуждое. Композитор, которому я иногда даю послушать то, что получается, называет это «злым двойником Олега Пащенко». Это очень интересно — слышать почти-себя как голос лакановского Другого.

Дальше работает уже более общая логика голосовых персон: у меня их накопилось несколько десятков, и каждая закрывает свой жанровый угол. old smart and broke — для диссонантного блэка с очень низким фрай-скримом; гуцул и яна — для дарк-кабаре и folk-noir дуэтов; мясопуст — для славянских ритуальных текстур; massa damnata — для массовых хоральных сцен; varsongr — когда нужен мутировавший гуттурал-гроул; игрушечник — для механической, шкатулочной инструментальной фактуры, и так далее.

Suno блокирует прямые упоминания известных исполнителей, но может делать Extend заливаемому в неё чужому треку, а из этого экстенда уже можно вытащить тембры. Чтобы она не ругалась по поводу авторских прав, достаточно предварительно поднять на пару полутонов и замедлить процентов на 10; а чаще всего мои референсы просто-напросто не защищены никакими правами, потому что это глубокий underground.

Ещё один важный приём: словарь. В промпте я никогда не пишу singing, singing voice, melody — это ключи, по которым модель почти гарантированно сползает в попсовую нормализацию. Пишу я, например, что-то вроде recitative, speech-song, growl, guttural, harsh hoarse distorted vocals, low-pitch male guttural growling and screaming, weary and drunk, mongolian throat singing. Хороший промпт работает как отрицательная скульптура: форма возникает не только из того, что названо, а из того, что последовательно и целенаправлено отсечено — поэтому у меня всегда длинный negative-хвост: no chorus, no hooks, no anthemic, no clean mix, no glossy production, no romantic, no swagger, no comedic vocals.

Обрядовые смыслы и мёртвые языки

Редактор меня попросил что-то рассказать на тему «Интеграция обрядовых смыслов и мёртвых языков в генеративную среду». С мёртвыми языками и обрядом всё одновременно проще и сложнее, чем может показаться. Проще — потому что Suno на удивление хорошо реагирует на церковнославянский, латынь или греческий, прекрасно подхватывает фонетику и не пытается её «исправить» в сторону английской просодии, если в стилевом промпте честно написать Old Church Slavonic recitative, Byzantine chant cadences, Latin liturgical phrases muttered, not sung. Сложнее — потому что обряд это не только текст и не только тембр, а ещё и ритмическая логика: процессия, лития, акафист — у каждого формата свой метр, и он почти никогда не совпадает с поп-структурой. У меня под это специально расписан режим odd-meter funeral logic (5/8, 6/8, 7/8, странный вальс), и ещё collapse-architecture — когда быстрое движение каждый раз проваливается в half-time lurch, breakdown или cut-silence, потому что обряд это чаще обрушение, чем катарсис.

Текст песни в Suno, как известно, живёт в поле Lyrics, но в это поле также можно дописывать инструкции, ремарки, отсылки, ритмические паттерны, обозначения шёпота и крика, и модель прочитывает это как часть просодии. Я пишу, к примеру, так: [whispered, near-mic, breath audible] / Господи, помилуй / [growl, distant, cathedral reverb] / Господи, помилуй / [chanted by mass choir, tape distortion] / Господи, помилуй. Один и тот же литургический возглас распадается на три акустических плана: ближний шёпот, отдалённый рёв, гибель хора в плёночном хрусте. То есть монтажная работа начинается уже на уровне промпта и задолго до того, как стемы попали в Audition.

Один мой трек, например, собран из византийских ладов, старославянского рефрена, авангардного блэка и тёмного индастриала; на уровне исходного промпта (а промпт в ходе генерации постоянно корректируется) там было написано примерно следующее:

Avant-garde ritual black metal fused with byzantine chant and dark ambient, in phrygian dominant, tritone-heavy, tempo ~72 bpm, odd meter 7/8 with collapse into half-time, ritual percussion: monotonous heartbeat frame drum, distant low hits, occasional death-bell tolls, detuned broken upright piano, distant wordless catacomb choir pad barely audible, painful sandpaper abrasive low-tuned distorted guitars as a narrow wall of noise, ritual harsh male growling vocals plus distant slavic funeral lament voices, mood of metaphysical dread, unstable, no catharsis, the track suddenly collapses claustrophobically into silence.

И длинный negative-хвост, исключающий всё, что Suno лепит по умолчанию: оркестр, хор в кинематографическом смысле, эпик, хуки, чистый микс, autotune, swagger, эстраду.

Короче говоря

У меня нет музыкального образования, я ни на чём не играю и не читаю ноты. Зато я всю жизнь пожирал музыку в чудовищных количествах и в какой-то момент обнаружил, что никто на свете не делает того, что устраивало бы меня на 100% — всегда что-то не так: слишком чисто, слишком напыщенно, стыдно за текст. Как говаривал Зорг в «Пятом элементе», если хочешь, чтобы что-то было сделано хорошо, сделай это сам.

Весь этот пайплайн — генерация, стемы, ROOM-шина, Ozone, десять вечеров мастеринга на один трек — существует ради одной операции: отсечения. 95 генераций из 100 уничтожаются, а из уцелевших пяти нарезается и склеивается одна, а потом ещё несколько дней я подкручиваю эквалайзер и спорю с LLM о том, не слишком ли мутная середина. Девяносто процентов работы — это произнесение слова «нет». Как сказал бы Тарковский, режиссура — ваяние во времени; в моём случае — ваяние в вероятностном поле, только вместо плёнки глыба размером со всю мировую музыкальную культуру.

Именно критерии отбора — то, что отличает музыку от контента. Для них нужны тело, биография, тридцать лет прослушивания, старые тексты из девяностых, любовь к Deathspell Omega и Бадаламенти, стыд за свой первый ИИ-альбом и опыт преподавания дизайна. Всего этого у модели нет, у неё есть терпение и скорость, а у меня зато — длинный тяжёлый острый нож.

Свои альбомы я не монетизирую. Это не бизнес и не «быстрый способ залететь на Spotify», а исследовательская практика и, чего уж там, самотерапия. Егор Летов говорил: «…если сотворённое тобой не заставляет тебя самого обезуметь и бесноваться от восторга — значит оно — вздорная бренная срань». Вот я и беснуюсь.

Ещё больше полезного и оперативного контента я публикую в своих Telegram-каналах. Присоединяйтесь к обсуждению!

mudi — всё о дистрибуции, работе с площадками и последних новостях. Подписаться →

mishas tips — инсайты, аналитика и разбор трендов всей музыкальной индустрии. Подписаться →

Музыкальный ИИ — слежу за тем, как искусственный интеллект меняет музыку прямо сейчас. Подписаться →