3 вопроса: Как генераторы изображений ИИ могут помочь роботам

Предыдущее изображение Следующее изображение

Генераторы изображений искусственного интеллекта, которые создают фантастические виды на стыке снов и реальности, всплывают на каждом углу сети. Их развлекательная ценность демонстрируется постоянно расширяющейся сокровищницей причудливых и случайных изображений, служащих косвенными порталами в мозг дизайнеров-людей. Простая текстовая подсказка почти мгновенно вызывает изображение, удовлетворяющее наш примитивный мозг, запрограммированный на мгновенное удовлетворение.

Несмотря на то, что сфера искусства, генерируемого искусственным интеллектом, кажется зарождающейся, ее можно проследить еще в 1960-х годах, когда были первые попытки использования символических подходов, основанных на правилах, для создания технических изображений. В то время как развитие моделей, которые распутывают и анализируют слова, становится все более изощренным, взрыв генеративного искусства вызвал дебаты вокруг авторского права, дезинформации и предубеждений, и все это погрязло в шумихе и противоречиях. Илун Ду, аспирант кафедры электротехники и информатики и сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), недавно разработал новый метод, который делает такие модели, как DALL-E 2, более творческими и лучше понимают сцену. Здесь Ду описывает, как работают эти модели, можно ли применить эту техническую инфраструктуру в других областях и как мы проводим грань между ИИ и человеческим творчеством.

Вопрос: В изображениях, созданных искусственным интеллектом, используется так называемая модель «стабильной диффузии», позволяющая превратить слова в поразительные изображения всего за несколько мгновений. Но за каждым используемым изображением обычно стоит человек. Так где же грань между ИИ и человеческим творчеством? Как на самом деле работают эти модели?

А: Представьте себе все изображения, которые вы можете найти в Google Поиске, и связанные с ними шаблоны. Это диета, на которой питаются эти модели. Они обучены на всех этих изображениях и их подписях генерировать изображения, похожие на миллиарды изображений, которые они видели в Интернете.

Допустим, модель видела много фотографий собак. Он обучен так, что при получении запроса на ввод текста, подобного «собаке», он способен создать фотографию, которая очень похожа на многие уже виденные изображения собак. Теперь, если говорить более методологически, то, как все это работает, восходит к очень старому классу моделей, называемому «энергетическими моделями», зародившемуся в 70-х или 80-х годах.

В моделях, основанных на энергии, поверх изображений строится энергетический ландшафт, который используется для моделирования физического рассеяния для создания изображений. Когда вы капаете точку чернил в воду и она, например, в конце растекается, вы просто получаете вот такую однородную текстуру. Но если вы попытаетесь обратить этот процесс рассеивания вспять, вы постепенно снова получите исходную чернильную точку в воде. Или, скажем, у вас есть очень замысловатая башня из блоков, и если вы ударите по ней мячом, она развалится на кучу блоков. Эта куча блоков становится очень беспорядочной, и в ней не так уж много структуры. Чтобы реанимировать башню, вы можете попытаться повернуть вспять этот процесс складывания, чтобы создать исходную кучу блоков.

Способ, которым эти генеративные модели генерируют изображения, очень похож: изначально у вас есть действительно хорошее изображение, вы начинаете со случайного шума и, по сути, учитесь моделировать процесс и обратить этот процесс вспять. от шума обратно к исходному изображению, где вы пытаетесь итеративно улучшить это изображение, чтобы сделать его все более и более реалистичным.

Что касается того, какая грань между ИИ и творческим потенциалом человека, можно сказать, что эти модели действительно тренируются на творческом потенциале людей. В Интернете можно найти все типы картин и изображений, которые люди уже создали в прошлом. Эти модели обучены перепросматривать и генерировать изображения, которые были в Интернете. В результате эти модели больше похожи на кристаллизацию того, на что люди тратили творчество на протяжении сотен лет.

Блог

3 вопроса: Как генераторы изображений ИИ могут помочь роботам