Я потратил 15 долларов в кредитах DALL-E 2 на создание этого изображения AI, и вот что я узнал.

Да, это лама, бросающая баскетбольный мяч. Краткое описание процесса, ограничений и уроков, полученных во время экспериментов с закрытой бета-версией DALL-E 2.

Эта статья была первоначально опубликована мной на Medium.


Я мечтал попробовать DALL-E 2 с тех пор, как впервые увидел это искусственно созданное изображение «Shiba Inu Bento Box».

Вот это да — вот это подрывная технология.

Для тех, кто не знаком, DALL-E 2 — это система, созданная OpenAI, которая может генерировать оригинальные изображения из текста.

В настоящее время она находится в закрытой бета-версии — я записался в список ожидания в начале мая и получил доступ в конце июля. Во время бета-тестирования пользователи получают кредиты (50 бесплатных в первый месяц, 15 кредитов каждый последующий месяц), где каждое использование стоит 1 кредит, и каждое использование приводит к созданию 3-4 изображений. Вы также можете приобрести 115 кредитов за 15 долларов США.

P.S. Если вам не терпится попробовать, попробуйте DALL-E mini бесплатно. Однако качество его изображений в целом хуже (что породило множество мемов о DALL-E), и на одну подсказку уходит около ~60 секунд (DALL-E 2, для сравнения, тратит всего 5 секунд или около того).

Вы, вероятно, видели в Интернете различные вишневые картинки, показывающие, на что способен DALL-E 2 (при условии правильного творческого подхода). В этой статье я рассказываю о том, что нужно сделать, чтобы с нуля создать пригодное для использования изображение на заданную тему: «лама играет в баскетбол». Она может оказаться полезной, если вы думаете попробовать DALL-E 2 самостоятельно или просто хотите понять, на что он способен.

Отправная точка

В том, чтобы определить, какой подсказкой кормить DALL-E 2, есть и искусство, и наука. Для примера, вот результаты для «ламы, играющей в баскетбол»:

Почему DALL-E 2 склонен генерировать мультяшные изображения для этой подсказки? Я предполагаю, что это как-то связано с отсутствием реальных изображений ламы, играющей в баскетбол, которые можно увидеть во время обучения.

Я попытался пойти дальше, добавив ключевой термин «реалистичная фотография»:

Эта лама выглядит более фотореалистично, но все изображение начинает выглядеть как неудачная работа в Photoshop. В данном случае DALL-E 2 явно нуждался в некоторой помощи, чтобы создать целостную сцену.

Оперативная разработка, она же искусство точно указывать то, что вы хотите.

В контексте DALL-E, проектирование подсказок относится к процессу разработки подсказок для получения желаемых результатов.

DALL-E 2 Prompt Book — фантастический ресурс для этого. В ней содержится подробный список источников вдохновения для подсказок с использованием ключевых слов из фотографии и искусства.

Почему необходимо что-то подобное? Потому что получить полезный результат от DALL-E 2 очень сложно (особенно когда вы не уверены в том, на что способен DALL-E 2). Настолько, что новый стартап создает рынок, где за подсказки взимается 1,99 доллара, чтобы сэкономить время и деньги на придумывание собственных.

Моя личная любимая находка — «драматическая подсветка»:

Важно точно сказать DALL-E 2, чего вы хотите. Видимо, из контекста не очевидно, что эта лама должна быть одета по случаю. Однако DALL-E 2 отлично справляется с реализацией этой фантастической сцены, когда указывается «лама в майке»:

На этом дело не заканчивается. Чтобы добавить драматизма изображению и заставить эту ламу летать, мне нужно было указать такие фразы, как «бросок баскетбольного мяча», «снимок действия…» или мой личный фаворит: «…лама в майке бросает баскетбольный мяч, как Майкл Джордан»:

Совет: DALL-E 2 сохраняет только предыдущие 50 поколений на вкладке «История». Не забудьте сохранить понравившиеся изображения.

Вы могли заметить: DALL-E 2 не очень хорош в композиции.

Можно подумать, что из контекста «бросания баскетбольного мяча» очевидно, где должны быть расположены лама, мяч и обруч. Чаще всего лама бросает мяч не в ту сторону, или мяч расположен таким образом, что у ламы нет никакой реальной надежды сделать бросок. Хотя все элементы подсказки присутствуют, в DALL-E 2 нет настоящего «понимания» отношений между ними. В этой статье эта тема рассматривается более подробно.

Еще один артефакт того, что DALL-E 2 не совсем «понимает» сцену, — это случайная путаница в текстурах. На изображении ниже сеть сделана из меха (нездоровая сцена, если подумать):

DALL-E 2 с трудом генерирует реалистичные лица

Согласно некоторым источникам, это могло быть намеренной попыткой избежать создания глубоких подделок. Я думал, что это относится только к людям, но, видимо, это относится и к ламам.

Некоторые результаты были просто жуткими.

Некоторые другие недостатки DALL-E 2

Вот некоторые другие мелкие проблемы, с которыми я столкнулся:

Ракурсы и кадры интерпретируются свободно.

Сколько бы вариантов «вдалеке» или «экстремально длинный кадр» я ни использовал, было трудно найти кадры, где лама целиком помещалась бы в кадр.

В некоторых случаях кадрирование полностью игнорировалось:

DALL-E 2 не может написать

Думаю, это не должно быть слишком удивительным, учитывая, что DALL-E 2 с трудом «понимает» отношения между компонентами. Тем не менее, в правильном контексте он способен набрать несколько полностью сформированных букв:

DALL-E 2 может быть темпераментным со сложными или плохо сформулированными подсказками

Иногда добавление ключевых слов или формулировка подсказки определенным образом приводили к результатам, которые полностью отличались от ожидаемых.

В данном случае реальная тема подсказки (лама в майке) была полностью проигнорирована:

Даже добавление термина «пушистый» привело к значительному ухудшению производительности и многочисленным случаям, когда казалось, что DALL-E 2 просто… сломался:

При работе с DALL-E 2 важно четко формулировать то, что вы хотите, не перегружая и не добавляя лишних слов.

Способность DALL-E 2 передавать стили впечатляет.

Вы должны это попробовать!

Как только у вас есть ключевое слово, вы можете создать изображение во впечатляющем количестве других художественных стилей.

‘Абстрактная живопись….’

‘Vaporwave’

‘Цифровое искусство’

‘Скриншоты из аниме-фильма Миядзаки’.

Заключительные мысли

После более чем 100 кредитов (~13 долларов США) и множества проб и ошибок, вот мое окончательное изображение:

Изображение не идеально, но DALL-E 2 удалось выполнить около 80% задания.

Большая часть кредитов ушла на попытки найти правильное сочетание стиля, лиц и композиции.

Согласно заявлению OpenAI о DALL-E,

«…пользователи получают полные права на коммерческое использование изображений, созданных с помощью DALL-E, включая право на перепечатку, продажу и мерчандайзинг».

Ожидается, что многие пользователи будут играть с этими правилами быстро и свободно.

Как создатель контента, DALL-E 2 будет наиболее полезен для создания простых иллюстраций, фотографий и графики для блогов и веб-сайтов. Я буду использовать его как альтернативу Unsplash для создания изображений для обложки блога, которые не будут выглядеть так же, как все остальные.

Если вы собираетесь попробовать DALL-E 2 самостоятельно, вот несколько советов перед началом работы:

  • Просмотрите DALL-E 2 Prompt Book! (А также сделанный фанатами лист для составления подсказок).
  • Будьте готовы сделать несколько проб и ошибок, чтобы получить то, что вы хотите. Пятнадцать бесплатных кредитов может показаться много, но на самом деле это не так. Ожидайте, что для создания пригодного для использования изображения вам понадобится не менее 15 кредитов. DALL-E 2 стоит недешево.
  • Не забывайте сохранять понравившиеся изображения по мере работы.

Спасибо за чтение! Я буду рад услышать ваш опыт работы с DALL-E 2 и приветствую любые мысли и отзывы.

Если вам понравилось читать эту статью, вот несколько статей других авторов, которые могут вам понравиться:

  • Как я использовал DALL-E 2 для создания логотипа для OctoSQL от Джейкоба Мартинса
  • Как я использовал искусственный интеллект для создания 10 знаменитых пейзажных картин», Альберто Ромеро
  • Что может и чего не может сделать DALL-E 2 от Swimmer963

Оцените статью
devanswers.ru
Добавить комментарий