В этой статье расскажу, что нового в Midjourney v6 и почему она лучше предшественников. Разберем примеры генераций и протестируем новые функции.
Кроме того, шестая версия более чувствительна к словам. Разработчики предлагают воздержаться от «мусора», такого как award winning, photorealistic, 4k и другого. А так как Midjourney v6 до сих пор находится в статусе альфа-тестирования, модель может в любой момент менять стили генераций.
Новая модель получила функцию outpaint и научилась дорисовывать исходные изображения. Кроме того, разработчики открыли доступ к работе с Midjourney через веб-интерфейс. Обновление доступно для пользователей, которые сгенерировали более 5 000 изображений.
В начале февраля разработчики добавили функциональность «
В
Это довольно примечательное и одновременно «мирное» улучшение, которое свойственно для каждой версии Midjourney. Сравните сами:
https://habrastorage.org/r/w1560/webt/ev/Экс экс/ll/evhhll08syjeykrxlmd38_bl8mw.png
Запрос: monitor with text «Hello, World!». Версии слева направо, сверху вниз:
Можно уверенно сказать, что раньше было хуже. Четвертая версия показывает в основном корректные буквы, но совершенно неправильные слова. Пятая пытается показать результат получше, но получается только хуже. А шестая — практически безупречно. Ничего лишнего, на четыре изображения приходится всего одна ошибка.
Запрос: sign with text «Внимание!».
Очевидно, что в Midjourney поддерживаются не все «шрифты» и кириллица генерируется плохо. Вернее, это даже на кириллицу не похоже. Иероглифы я сразу отдал на генерацию Niji 6, которую принято считать наиболее восточной моделью.
Запрос: sign with text «注意» —niji 6.
Niji 6 рисует правдоподобные иероглифы, половину из них даже распознает Google Translate. В общем, генерация текста доступна только на английском языке. Тогда как много текста может «написать» модель в пределах одной картинки?
Запрос: paper with text «The quick brown fox jumps over the lazy dog».
Если есть бюджет, можно получить что-то похожее на панграмму The quick brown fox jumps over the lazy dog. Но сгенерировать идеальный вариант будет затруднительно: то буквы «плывут», то слов не хватает, то порядок не тот.
Запрос: chips lays packaging with label «Internal Server Error» —style raw.
Тем не менее, корректная генерация коротких сообщений позволяет делать потешные изображения. Например, чипсы со вкусом ошибки HTTP 500 или хабратортики.
Хабраторт.
Borderlands 3.
Консистентные стили (consistent styles или style references) — это тестовые алгоритмы для шестой версии, которые позволяют генерировать изображение в стиле другого изображения.
Примеры стилей для нового алгоритма задаются через перечисление ссылок на изображения в параметре —sref. Пример:
portrait of beautiful woman --sref
Визуальный стиль Borderlands весьма примечателен, поэтому я взял иллюстрацию выше в качестве примера.
Запрос: portrait of beautiful woman —sref
Обратите внимание: стиль Borderlands применяется не везде, но цветовая гамма весьма схожая. Опытный пользователь может отметить, что Midjourney уже давно умеет использовать другие изображения в качестве референсов. Это правда, но параметр sref заимствует именно стиль и не влияет на текстовый запрос.
Запрос:
Старый способ заимствования стилей не только хуже справляется, но и добавляет лишние детали. В примере выше — вооружение и дополнительных людей. Кроме того, в семи из восьми случаев Midjourney дорисовывает черные полоски, потому что исходное изображение не квадратное.Следующий шаг развития — консистентный персонаж (consistent character). Звучит как удобный инструмент, например, для генерации визуальных новелл. Но сегодня эта функциональность недоступна, а дата релиза не обозначена.
Функция «ремастер» появилась раньше, чем вышла Midjourney v6, и имеет жесткие ограничения по версиям моделей. Тем не менее, это интересная особенность, пропущенная мной ранее.
Ремастер — это перегенерация старых изображений с использованием более новой модели. На момент написания статьи ремастерить можно изображения, сгенерированные Midjourney v1, v2 и v3. Обновленные иллюстрации рисует модель v5.2.
Найти кнопку ремастера — нетривиальная задача. Для этого нужно:
Midjourney преобразит старое изображение.
В ранних обзорах я показывал реакцию Midjourney на некорректные или слишком точные запросы. Раз разработчики заявляют, что шестая версия — это обученная с нуля модель, посмотрим, насколько она унаследовала особенности своих предшественников.
Запрос: e97c74d3-6547-4563-8867-758747813314 (
Хотя это не самый популярный пункт, мне он вспоминается первым. Абстрактные или некорректные запросы в 99% случаев приводят к генерации портрета девушки в ранних версиях Midjourney. Шестая версия — не исключение.
Вероятно, эта особенность связана с токенайзером и данными для обучения. Первый по-прежнему удаляет неизвестные токены, а при пустом запросе модель генерирует то, чего было больше в обучающем наборе данных.
Запрос: hands with golden ring. Слева направо:
В статье, посвященной пятой альфа-версии, я хвалил Midjourney, что им удалось частично пофиксить некорректную генерацию пальцев. Но результат по запросу, в котором руки, допустим, что-то держат, не радует идеальными кистями. Впрочем, никто не обещал, что Midjourney v6 будет идеальна во всех аспектах.
Запрос: hamburger in hands. Слева направо:
Запрос: twelve cats. Слева направо:
Считать до больших чисел Midjourney все еще не научилась: только четвертая версия смогла сгенерировать изображение с двенадцатью котами. Однако этот пример раскрывает композиционные «предпочтения» шестой модели. При запросе множества объектов она по умолчанию генерирует несколько независимых изображений.
Заявления разработчиков
Шестая версия — третья обученная с «нуля» модель Midjourney. Процесс разработки занял около девяти месяцев. Она по-другому понимает вопросы, поэтому прошлые методы подготовки промтов могут работать не так, как раньше.
Кроме того, шестая версия более чувствительна к словам. Разработчики предлагают воздержаться от «мусора», такого как award winning, photorealistic, 4k и другого. А так как Midjourney v6 до сих пор находится в статусе альфа-тестирования, модель может в любой момент менять стили генераций.
Новая модель получила функцию outpaint и научилась дорисовывать исходные изображения. Кроме того, разработчики открыли доступ к работе с Midjourney через веб-интерфейс. Обновление доступно для пользователей, которые сгенерировали более 5 000 изображений.
В начале февраля разработчики добавили функциональность «
Для просмотра ссылки необходимо нажать
Вход или Регистрация
» для шестой версии. Наконец, 15 февраля она
Для просмотра ссылки необходимо нажать
Вход или Регистрация
моделью по умолчанию. Однако разработчики говорят, что это все еще альфа-версия.Обзор нововведений
Генерация текста
В
Для просмотра ссылки необходимо нажать
Вход или Регистрация
есть краткое упоминание о «небольшом улучшении отрисовки текста».«Minor text drawing ability (you must write your text in «quotations» and —style raw or lower —stylize values may help)». Разработчики Midjourney
Это довольно примечательное и одновременно «мирное» улучшение, которое свойственно для каждой версии Midjourney. Сравните сами:
https://habrastorage.org/r/w1560/webt/ev/Экс экс/ll/evhhll08syjeykrxlmd38_bl8mw.png
Запрос: monitor with text «Hello, World!». Версии слева направо, сверху вниз:
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Можно уверенно сказать, что раньше было хуже. Четвертая версия показывает в основном корректные буквы, но совершенно неправильные слова. Пятая пытается показать результат получше, но получается только хуже. А шестая — практически безупречно. Ничего лишнего, на четыре изображения приходится всего одна ошибка.
Запрос: sign with text «Внимание!».
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Очевидно, что в Midjourney поддерживаются не все «шрифты» и кириллица генерируется плохо. Вернее, это даже на кириллицу не похоже. Иероглифы я сразу отдал на генерацию Niji 6, которую принято считать наиболее восточной моделью.
Запрос: sign with text «注意» —niji 6.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Niji 6 рисует правдоподобные иероглифы, половину из них даже распознает Google Translate. В общем, генерация текста доступна только на английском языке. Тогда как много текста может «написать» модель в пределах одной картинки?
Запрос: paper with text «The quick brown fox jumps over the lazy dog».
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Если есть бюджет, можно получить что-то похожее на панграмму The quick brown fox jumps over the lazy dog. Но сгенерировать идеальный вариант будет затруднительно: то буквы «плывут», то слов не хватает, то порядок не тот.
Запрос: chips lays packaging with label «Internal Server Error» —style raw.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Тем не менее, корректная генерация коротких сообщений позволяет делать потешные изображения. Например, чипсы со вкусом ошибки HTTP 500 или хабратортики.
Хабраторт.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Консистентные стили
Borderlands 3.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Консистентные стили (consistent styles или style references) — это тестовые алгоритмы для шестой версии, которые позволяют генерировать изображение в стиле другого изображения.
Примеры стилей для нового алгоритма задаются через перечисление ссылок на изображения в параметре —sref. Пример:
portrait of beautiful woman --sref
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Визуальный стиль Borderlands весьма примечателен, поэтому я взял иллюстрацию выше в качестве примера.
Запрос: portrait of beautiful woman —sref
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Обратите внимание: стиль Borderlands применяется не везде, но цветовая гамма весьма схожая. Опытный пользователь может отметить, что Midjourney уже давно умеет использовать другие изображения в качестве референсов. Это правда, но параметр sref заимствует именно стиль и не влияет на текстовый запрос.
Запрос:
Для просмотра ссылки необходимо нажать
Вход или Регистрация
portrait of beautiful woman.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
Старый способ заимствования стилей не только хуже справляется, но и добавляет лишние детали. В примере выше — вооружение и дополнительных людей. Кроме того, в семи из восьми случаев Midjourney дорисовывает черные полоски, потому что исходное изображение не квадратное.Следующий шаг развития — консистентный персонаж (consistent character). Звучит как удобный инструмент, например, для генерации визуальных новелл. Но сегодня эта функциональность недоступна, а дата релиза не обозначена.
Ремастер
Функция «ремастер» появилась раньше, чем вышла Midjourney v6, и имеет жесткие ограничения по версиям моделей. Тем не менее, это интересная особенность, пропущенная мной ранее.
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
.Ремастер — это перегенерация старых изображений с использованием более новой модели. На момент написания статьи ремастерить можно изображения, сгенерированные Midjourney v1, v2 и v3. Обновленные иллюстрации рисует модель v5.2.
Найти кнопку ремастера — нетривиальная задача. Для этого нужно:
- сгенерировать новое изображение на старой модели или «освежить» один из запросов через команду /show и UUID запроса;
- увеличить изображение с помощью функции Upscale и кнопок U1, U2, U3 или U4;
- нажать на появившуюся кнопку Remaster.
Midjourney преобразит старое изображение.
Что разработчики еще не исправили
В ранних обзорах я показывал реакцию Midjourney на некорректные или слишком точные запросы. Раз разработчики заявляют, что шестая версия — это обученная с нуля модель, посмотрим, насколько она унаследовала особенности своих предшественников.
Защитный механизм
Запрос: e97c74d3-6547-4563-8867-758747813314 (
Для просмотра ссылки необходимо нажать
Вход или Регистрация
), жадина-говядина (
Для просмотра ссылки необходимо нажать
Вход или Регистрация
).Хотя это не самый популярный пункт, мне он вспоминается первым. Абстрактные или некорректные запросы в 99% случаев приводят к генерации портрета девушки в ранних версиях Midjourney. Шестая версия — не исключение.
Вероятно, эта особенность связана с токенайзером и данными для обучения. Первый по-прежнему удаляет неизвестные токены, а при пустом запросе модель генерирует то, чего было больше в обучающем наборе данных.
Генерация пальцев
Запрос: hands with golden ring. Слева направо:
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
версия.В статье, посвященной пятой альфа-версии, я хвалил Midjourney, что им удалось частично пофиксить некорректную генерацию пальцев. Но результат по запросу, в котором руки, допустим, что-то держат, не радует идеальными кистями. Впрочем, никто не обещал, что Midjourney v6 будет идеальна во всех аспектах.
Запрос: hamburger in hands. Слева направо:
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
версия.Точное количество
Запрос: twelve cats. Слева направо:
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
,
Для просмотра ссылки необходимо нажать
Вход или Регистрация
версия.Считать до больших чисел Midjourney все еще не научилась: только четвертая версия смогла сгенерировать изображение с двенадцатью котами. Однако этот пример раскрывает композиционные «предпочтения» шестой модели. При запросе множества объектов она по умолчанию генерирует несколько независимых изображений.
Midjourney эволюционирует, новые «мутации» и улучшения — налицо. Посмотрим, чем порадуют следующие версии модели.
Для просмотра ссылки необходимо нажать
Вход или Регистрация