Когда ИИ сможет создавать искусство

Генераторы изображений, такие как Dall-E 2, могут создавать изображения на любую тему за считанные секунды. Некоторые креативщики встревожены, но другие скептически относятся к шумихе.

Когда концепт-художник и иллюстратор Р. Дж. Палмер впервые стал свидетелем тонко настроенного фотореализма композиций, созданных генератором изображений искусственного интеллекта Dall-E 2, он почувствовал беспокойство. Инструмент, выпущенный исследовательской компанией OpenAI в области искусственного интеллекта, продемонстрировал заметное улучшение по сравнению с Dall-E 2021 года, и за ним быстро последовали такие конкуренты, как Stable Diffusion и Midjourney. Введите любую сюрреалистическую подсказку, от лягушки Кермита в стиле Эдварда Мунка до Голлума из «Властелина колец», пирующего ломтиком арбуза, и эти инструменты мгновенно вернут поразительно точное изображение.

Интернет наслаждался возможностями создания мемов: аккаунт в Твиттере, документирующий «странные поколения Dall-E», собрал более миллиона подписчиков. Cosmopolitan провозгласил первую в мире обложку журнала, созданную искусственным интеллектом, а технологические инвесторы с радостью приветствовали новую эру «генеративного искусственного интеллекта». Возможности создания изображений уже распространились на видео с выпуском Imagen Video от Google и Make-A-Video от Meta.

Но новое художественное мастерство ИИ не было восторженно встречено некоторыми творческими людьми. «Меня больше всего беспокоит то, как это повлияет на будущее не только моей отрасли, но и творческих отраслей в целом», — говорит Палмер.

Принимая большие наборы данных для анализа закономерностей и построения прогнозных моделей, ИИ уже давно доказал свое превосходство над людьми в некоторых задачах. Именно этот математический ум заставил ИИ победить чемпиона мира по го еще в 2016 году, быстро просчитывая наиболее выгодную игровую стратегию и не боясь выполнять ходы, которые вызвали бы насмешки, если бы они исходили от человека. Но до недавнего времени создание оригинальной продукции, особенно творческой, считалось чисто человеческим занятием.

Недавние улучшения в области искусственного интеллекта изменили ситуацию. Генераторы изображений ИИ теперь могут не только преобразовывать написанные фразы в новые изображения, но также были достигнуты успехи в генерации речи ИИ: большие языковые модели, такие как GPT-3, достигли уровня беглости, который убедил, по крайней мере, одного недавно уволенного исследователя Google в машинное чутье. Подключите творчество Баха, и ИИ сможет импровизировать музыку более или менее в том же стиле – с оговоркой, что человеческий оркестр зачастую не может на самом деле играть.

Этот класс технологий известен как генеративный ИИ и работает посредством процесса, известного как диффузия. По сути, для обучения ИИ собираются огромные наборы данных, и с помощью технического процесса ИИ может разрабатывать новый контент, который напоминает обучающие данные, но не является идентичным. После того, как он просмотрит миллионы изображений собак, помеченных словом «собака», он сможет расположить пиксели в форме совершенно нового щенка, который настолько близко напоминает набор данных, что у нас не возникнет проблем назвать его собакой. Это не идеально: инструменты искусственного интеллекта по-прежнему с трудом справляются с визуализацией рук, которые выглядят как человеческие, пропорции тела могут быть неправильными, и у них есть привычка создавать бессмысленные тексты.

В то время как интернет-пользователи воспользовались этим усиленным творческим потенциалом – вооружившись правильно отточенной подсказкой, даже новички теперь могут создавать захватывающие цифровые полотна – некоторые художники отвергли способность новой технологии к мимикрии. Среди подсказок, вводимых в генераторы изображений Stable Diffusion и Midjourney, многие помечают имя художника, чтобы обеспечить более эстетичный стиль получаемого изображения. Что-то столь обыденное, как ваза с апельсинами, может стать привлекательным, если быть выполненным в стиле, скажем, Пикассо. Поскольку ИИ обучался на миллиардах изображений, некоторые из которых являются произведениями ныне живущих художников, защищенными авторскими правами, он, как правило, может создать довольно точную аппроксимацию.

Некоторые возмущены тем, что они считают кражей их художественной торговой марки. Грег Рутковски, концепт-художник и иллюстратор, хорошо известный своими эпическими фэнтезийными сценами, наполненными золотым светом, уже упоминался в сотнях тысяч подсказок, используемых в Midjourney и Stable Diffusion. «Прошел всего месяц. А что будет через год? Я, вероятно, не смогу найти там свои работы, потому что [Интернет] будет наводнен искусством искусственного интеллекта», — сказал Рутковски MIT Technology Review. «Это беспокоит».

Блог