Как работает чудо-нейросеть dall·e 2, которая генерирует любое изображение по тексту. объясняем подробно

Это иллюзия: виртуальная реальность

О виртуальной реальности чаще говорят в контексте компьютерных игр и «объемного кино», но у технологии есть потенциал и в медицине, причем не в самых очевидных областях. Например, VR эффективно используют в качестве обезболивающего.

Действие разворачивается на фоне полуфантастических северных пейзажей со множеством сугробов и замерзших рек, задача героя — играть в снежки с полярными медведями, пингвинами и снеговиками. Чтобы пройти все уровни, пациент поневоле сосредотачивается на головоломке и отвлекается от физических ощущений. Результаты МРТ-обследований мозга показали, что SnowWorld действительно смягчает восприятие боли, поэтому пациенту требуется меньше сильных обезболивающих средств, которые могут навредить организму.

VR заменяет или дополняет болеутоляющие во многих сферах медицины. Технологию используют, чтобы облегчить боли при родах и во время стоматологических процедур. Обезболивающие свойства виртуальной реальности особенно в свете «опиоидного кризиса» в США — его связывают с ростом популярности рецептурных обезболивающих (например, оксиконтина и викодина) в последние десятилетия.

VR работает не только при физической боли: она способна победить и психологическую травму. Первые эксперименты прошли в конце 1990-х, тогда психологу Барбаре Ротбаум удалось облегчить симптомы посттравматического стрессового расстройства у ветеранов Вьетнама при помощи виртуальных моделей кабины вертолета и поляны в азиатских джунглях. Эта методика дополняла экспозиционную терапию — постепенное «приближение» к травмирующим воспоминаниям, которых сознание пациента старается избегать. Похожая схема работает при лечении тревожных расстройств и фобий с помощью виртуальной реальности. Технология помогает справиться с аэрофобией и боязнью публичных выступлений: смоделированная среда дает возможность многократно «репетировать» пугающую ситуацию.

Цифровой сюрреализм

В поисках способа изобразить трехмерную жизнь на плоских экранах, начинает появляться новая тенденция: цифровой сюрреализм. Этот стиль изображает сюрреалистический виртуальный мир, состоящий из четких визуальных элементов и материалов, которые кажутся одновременно знакомыми и воображаемыми. Сочетание натурального материала и цифрового дизайна допускает поведение, которое было бы невозможно в реальной жизни: пузырьки, которые никогда не лопаются или объекты, бросающие вызов гравитации. Именно этого мы ждем в 2022.

Промо-ролик с моушн графикой, представленный ниже, созданный для презентации новой камеры Samsung цифровым художником Daniel Aristizábal. Он расширяет границы материалов, создавая захватывающие образы знакомых объектов, которые ведут себя чуждым образом.

Countdown to what?

То же показывает видео Moth Studio для телеканала E4. Они объединяют 3D-персонажей с цифровым изображением природы.

Window Words E4 Ident

23.

Sensorium Galaxy: что такое виртуальная вселенная

Представления людей о виртуальном мире складываются на основе современных художественных произведений. Вспоминается симуляция реального мира в Матрице режиссеров Вачовски, социальные взаимодействия в духе игры GTA Online или киберпанк из книги Нила Стивенсона «Лавина». Однако, нынешние VR-шлемы технически несовершенны, чтобы оправдать ожидания пользователей.

Основатели стартапа Sensorium видят в этом главную проблему индустрии развлечений. Технология VR все еще непопулярна из-за отсутствия контента, а контент не производится из-за непопулярности технологии. И если Oculus и HTC ведут гонку за перспективу стать первыми на новом рынке VR-устройств, то производители контента пока не торопятся вступать в индустрию. Согласно исследованию Steam, за 2020 год количество пользователей VR-приложений увеличилось с 1,1% до 1,7% от общего числа игроков.

Продукт, который должен исправить несоответсвие — Sensorium Galaxy. Это искусственная вселенная или метавселенная в виртуальной реальности, созданная с помощью технологии блокчейн. Пользователи погружаются в виртуальное пространство, чтобы взаимодействовать со средой и другими пользователями.

С программной точки зрения, Sensorium Galaxy — это агрегатор информации нового поколения. В нем реализована возможность для хранения и потоковой передачи VR-контента потребителям. Виртуальная вселенная представляет собой трехмерную социальную сеть. Вместо подписки на инстаграм любимого исполнителя, фанат может сразу посетить его виртуальное выступление

И что важно, не в одиночку, а разделив впечатление с друзьями

Сейчас можно опробовать раннюю версию Sensorium Galaxy для Windows. После официального выхода в первой половине 2021 года, Sensorium Galaxy будет доступна со множества платформ, от мобильных устройств и компьютеров до шлемов виртуальной реальности.

Информационные технологии в киноиндустрии

Облачные технологии. Обычно над кинофильмом могут трудиться несколько десятков и даже сотен различных специалистов из разных точек планеты. С актерами все ясно — без их игры в конкретной локации не получится шедеврального кино. Но вот продюсеры, режиссеры, монтажеры и т. д. могут не приезжать, а работать из своей страны. Для этого в облачные сервисы заливаются наработки по фильму, и дистанционно над ним могут работать специалисты из разных стран.

Нейросети и актеры. Применение искусственного интеллекта в кино становится все популярнее, потому что он способен «омолодить» любого актера, «придать» ему дополнительные возможности и характеристики и мн. др. Актер нужен будет только для снятия образа и придания основных действий своему герою, а все «тонкости» игры способна добавить нейросеть.

Нейросети и сценарии. Все, что касается написания сценариев и монтажа фильмов при помощи искусственного интеллекта, находится в экспериментальной стадии. Говорить пока о каких-то шедеврах рано, но предпосылки и наработки есть, поэтому вполне вероятно, что в скором будущем мы увидим кино, созданное искусственным интеллектом.

Цифровые двойники. Информационные технологии в киноиндустрии плотно приблизились к тому, чтобы создавать полноценных цифровых двойников для действующих актеров. Такие эксперименты уже проводились в фильме «Терминатор: Генезис». Эта технология пока не идеальна, поэтому не используется очень широко. Не идеальна она потому, что пока нет возможности точно воссоздавать мимику и реакцию настоящего человека. Но есть еще кое-что: чем реалистичней становится цифровой двойник, тем сильнее он отпугивает от себя зрителей — пока эта тенденция никак не объясняется.

Виртуальная реальность. Эта IT-технология пока только притягивает кинематограф. Разработать полноценный фильм в виртуальной реальности пока не представляется возможным из-за ряда проблем. Например, из-за несостоятельности современных VR-шлемов, потому что при их длительном использовании человек ощущает дискомфорт: тошнота и головные боли. А второй момент — это обзор в 360 градусов
При таком обзоре сложно удержать внимание зрителя на нужной киносцене. Короткометражные фильмы и видеоролики в формате виртуальной реальности уже есть, значит, совсем скоро нас ждет и полнометражный VR-фильм.

Мобильные телефоны
Как бы странно это ни звучало, в киноиндустрии есть отдельный раздел — «Мобильное кино». Это кинофильмы, снятые при помощи мобильного телефона, а не профессиональных камер. Современные смартфоны позволяют снимать видео в очень хорошем качестве. На практикемобильное кино» — это шанс для молодых режиссеров и любителей кино попробовать себя в киноиндустрии. Есть даже отдельные кинофестивали «мобильного кино».

Цифровой формат. Кино в цифровом формате сейчас никого не удивляет. Но спор касательно качества между «цифрой» и традиционной пленкой есть до сих пор. Цифровой формат в киноиндустрии несет новые возможности: съемки с дронов, съемки небольшими «карманными» камерами и мн. др.

Модернизация цифровых камер. Как мы уже сказали, цифровой формат — это возможность модернизировать цифровые видеокамеры. Поэтому уже сейчас можно встретить камеры без операторов, которые способны самостоятельно снимать, постоянно удерживая героя в кадре.

Игровые движки. Современные геймеры знают, что многие игровые движки делают игры очень реалистичными. Это свойство движков используют и в киноиндустрии. При помощи игровых движков уже сейчас могут «накладывать» на отснятый материал крутую компьютерную графику. Если нужно, то это можно делать даже в режиме реального времени, прямо во время съемочного процесса.

Краудфандинг и блокчейн. Это новые способы финансирования современного киноискусства. Эти способы основаны на применении современных IT-технологий

Но самое важное, что они расширяют круг потенциальных инвесторов в кино.

Анимационные технологии. Придавать нарисованным героям свойства живых актеров — это достижение современной анимации

К таким свойствам можно отнести дыхание, эмоции, реалистичность физических движений и т. д. Мультипликационные фильмы тоже становятся все более реалистичными.

Стриминговые сервисы. Раньше кино снималось для того, чтобы зритель пошел в кинотеатр и посмотрел его на большом экране. Но в последнее время происходит переориентация зрителей от кинотеатров в сторону стриминговых сервисов. Это вносит свой отпечаток в киноиндустрию, так как теперь киношникам приходится заботиться о том, как фильм будет смотреться на небольших экранах гаджетов, чтобы не потерять своего потенциального зрителя.

Sensorium Creators: как создать свой мир

Музыкальные и танцевальные звезды привлекут на платформу первых пользователей. В дальнейшем, реализовывать потенциал многоуровневого виртуального мира будет программа Sensorium Creators.

Технологическим партнером Sensorium является компания Epic Games, разработчик игры Fortnite и игрового движка Unreal Engine. В рамках «Программы для авторов» сторонние разработчики могут представлять свои проекты на базе Unreal Engine для метавселенной. Это может быть площадка для игры в пейнтбол, художественный музей или игровой квест.

Перечисленные виды проектов используют и для продвижения своего бренда в метавселенных. Так пользователи могут узнать о компании, поучаствовать в мероприятиях, выполнить квесты или посетить виртуальный офис. Агентство Maff Metaverse поможет найти подходящий вашему бизнесу способ продвижения и реализует его в метавселенной.

Естественное развитие — ключевая особенность свободной метавселенной. Здесь любой пользователь имеет возможность самореализоваться, привлекая аудиторию и монетизируя свои виртуальные товары и услуги.

Письмо-вопрос: имеет ли смысл лезть в 3D сейчас?

Здравствуйте Юрий.

Я являюсь давним читателем вашего блога, хотя и имею довольна посредственное отношение к 3d. Сразу хотелось бы сказать спасибо, что ведёте его, нынче мало 3Дшников делятся своими мыслями/опытом/советами в такой удобной форме, а у вас это ещё и крайне интересно получается.

Сейчас я работаю на нелюбимой работе и имею кучу свободного времени, примерно по 170-200 часов в месяц (да, я считал). Которые я просто выкидываю на всякую чепуху. А лень сменил страх. Страх за то, что я могу вложить силы в 3d (мне всегда нравилась анимация и моделирование), а затем придут нейросети\ИИ и отправят меня на обочину. И вот снова состояние паралича.

Лени как таковой уже нет, даже мотивация какая то появилась, но всё обрубает этот страх. И вот я снова в позе овоща сижу и трачу время на чепуху.

Обоснованы ли мои страхи? Может и правда уже не имеет смысла сюда лезть и в свои 25 лет стоит найти что то более надёжное?

На вопрос «кем бы я хотел быть?» я себе ответил уже давно. Но я просто не могу начать зная\думая, что всё в пустую.

Диагностируй это: искусственный интеллект

Успех лечения во многом зависит от быстрой и безошибочной диагностики: для этого врачу нужно накопить немало практического опыта и быть в курсе актуальных научных работ в своей области. Но каждый месяц в печати появляется множество новых исследований и описаний клинических случаев — где найти время, чтобы изучить все это? Здесь на помощь людям приходят компьютеры, способные обрабатывать огромные объемы информации за секунды.

Сегодня алгоритмы анализа медицинских данных создают крупнейшие корпорации, в том числе Microsoft, IBM и Google. Чаще всего в основе их разработок лежат различные формы самообучающегося искусственного интеллекта, способные отыскивать закономерности в больших наборах данных, например томограмм мозга или снимков подозрительных новообразований на коже. Такие алгоритмы обучаются с помощью библиотек из тысяч примеров, где за каждым изображением закреплен диагноз, поставленный квалифицированным врачом.

Анализировать множество снимков позволяют сверточные нейронные сети (convolutional neural networks, CNN). Это глубокие (многослойные) структуры, в которых каждый искусственный нейрон получает лишь небольшой фрагмент выходных данных предыдущего уровня. Постепенно сеть обобщает локальные признаки, воссоздавая полную картину. Сопоставив все данные, CNN может распознавать различные детали на исходном изображении, в том числе характерные элементы, на основе которых врачи ставят диагноз.

В 2017 году в Стэнфорде создали сверточную нейросеть CheXNet, которая способна вычислить пневмонию по рентгеновскому снимку грудной клетки не хуже врача. CheXNet обучали, используя подборку из 112 120 снимков, предоставленных 30 805 пациентами: каждое изображение снабдили данными о наличии или отсутствии у пациента 14 заболеваний легких, включая пневмонию. 420 снимков из подборки показали практикующим врачам со стажем от 4 до 28 лет: выяснилось, что алгоритм не уступал людям в эффективности диагностики. Впрочем, в распоряжении докторов не было снимков с других ракурсов и данных об истории болезни, так что эксперимент все-таки нельзя считать чистым.

Весной 2018 года другой сверточной нейросети удалось превзойти дерматологов в диагностике меланомы по фотографии. Отличить безобидную родинку от зарождающейся опухоли можно по нескольким признакам: асимметричности, неровным краям и неоднородности цвета. Для обучения алгоритма использовали базу из ста тысяч снимков новообразований на коже. Тест разбили на два этапа: на первом и нейросеть, и дерматологи ставили диагноз только на основе фото, на втором врачам открыли доступ к дополнительной информации о пациентах (возрасту, полу и данным о том, на какой части тела расположена необычная родинка). Изначально программа верно определяла меланому в 95 % случаев, врачи — в 86,6 %. На втором этапе средняя точность диагнозов у людей поднялась до 89 %, но даже опытные дерматологи ошибались чаще, чем нейросеть.

Большинство экспертов сходятся во мнении, что ИИ (пока) не в силах по-настоящему заменить врачей. На стороне человека — опыт и способность искать нестандартные решения.

Уровень 1. Самое простое объяснение

DALL·E 2 состоит из трёх больших частей, базу для которых разработали в Google, но «собрали» в OpenAI.

Первая нейросеть «читает» текст и рисует «черновик» будущего изображения.

Вторая нейросеть превращает «черновик» в маленькое конечное изображение.

Третья нейросеть увеличивает эту маленькую картинку в 16 раз, добавляя необходимые детали.

Готово!

Поэтапно это происходит так:

1. Первая нейросеть называется CLIP, она переводит наш написанный (человеческий) текст в компьютерный язык в виде цифр.

2. Далее CLIP превращает этот набор цифр в таблицу с другими цифрами. Такая таблица играет роль «наброска» или «скелета», по которому создаётся конечное изображение. Чтобы всё сработало, CLIP тренировали на 600 миллионах картинок и подписям к ним.

3. «Черновик» переходит во вторую нейросеть под названием GLIDE.

4. Вторая нейросеть GLIDE берёт первоначальный компьютерный текст из пункта 1 и полученную схему из пункта 2, совмещает данные с них. На основе такого микса она создаёт серый зернистый квадрат, из которого постепенно убирает зерно и тем самым проявляет картинку в плохом качестве. Этот метод проявки называется «применение Диффузной модели».

5. Третья нейросеть увеличивает качество картинки в 16 раз и показывает нам финальный результат.

Но эти этапы озвучены весьма упрощённо: на самом деле в DALL·E 2 работают не сами нейросети, а только их части. Например, изначально CLIP вообще не умела рисовать изображения, её задача была ровно противоположной: описывать текстом то, что она видит.

Рассмотрим эти моменты подробнее.

Поиск по одному фрагменту

Руководитель лаборатории перспективных алгоритмов обработки аудиовизуальной информации Сергей Подлесный переносит меня из прошлого в настоящее киноиндустрии. Его лаборатория по сравнению с музеем выглядит скромно, стандартные офисные столы, компьютеры. Наверное, внутренний компьютерный мир таит самые непредсказуемые лабиринты…

— Пять лет назад мы начали с самого простого, — рассказывает ученый. — Разработали систему поиска в архивах. — Ее уникальность заключается в том, что она ищет не по целому изображению, а способна найти ролик по частям лица, отдельным ландшафтным линиям, до полного совпадения.

С этим проектом Подлесный выступил на научной конференции в Лондоне в 2016 году, в Роспатенте зарегистрировал изобретение. Технологии нашли применение в Госфильмофонде, который хранит и редкие кадры, и фотографии, и плакаты, и сценарии. К счастью, описание такого богатства уже во многом перенесено на электронные источники. Но разобраться с ним непросто. Например, как найти в считаные минуты именно то видео, которое нужно?

— Обученная нейронная сеть стала выполнять поиск за считаные секунды. У нас собственная лицензионная система по поиску в архиве. С помощью нее киностудия или телестудия гарантированно защитит себя от утечки информации. Ведь разработанной нами системе не нужно выходить во всемирную паутину, — рассказывает Сергей Подлесный.

На таких мультипликационных столах снимали любимые всеми рисованные советские мультфильмы ФОТО: Александр Кожохин, «Вечерняя Москва»

Ученый на моих глазах делает запрос на кинохронику встречи генерального секретаря ЦК КПСС Леонида Брежнева с руководителем Кубы Фиделем Кастро. Синий экран расцвечивают несколько видеозаписей Брежнева и Кастро. Сергей Юрьевич не скрывает, что их собственные разработки велись параллельно с известными широкому потребителю американским поисковиком.

— Однако, обращаясь к заокеанскому поисковику, вы, как владелец, рискуете. Попав в интернет, авторские права и права киностудии попросту окажутся под угрозой, — поясняет Подлесный.

Для разработки крупного проекта видеомоделирования виртуального пространства Министерство культуры оказало НИКФИ материальную поддержку. Киноинженеры закупили мультимедийные кинокамеры размером чуть больше спичечного коробка.

— Если этими крохами «напичкать» пространство, например живописную горную тропу, можно добиться полного ощущения присутствия на ней, — ученый демонстрирует маленькую серую коробочку. — Эти камеры можно применять и при съемке батальных сцен, фокус в том, что режиссер увидит всю сцену сразу. По сути, это цифровой аналог кинопанорамы, сооруженной в 1960-е на ВДНХ.

Однако усеивать камерами-коробочками всю площадку виртуальной прогулки, по признанию Сергея, необязательно.

— С помощью искусственного интеллекта недостающие фрагменты видео можно дорисовывать так, чтобы вся необходимая картина, существующая в реальности, сложилась. И освещение, и резкость, и цветокоррекцию тоже можно будет выбирать. Система даже позволяет создать эффект полета, — рассказывает Подлесный.

Художественные приемы

С самого начала кинематографические виды искусства зависели от других. Об этом стоит рассказать в сочинении-рассуждении или эссе о фильмах.

На развитие киноэстетики влияют теоретико-художественные концепции:

тотального реализма (А. Базен);
феноменологического реализма (З. Кракауэр);
визуального кинематографа (П. Гринуэй);
недовоплощенной общественной жизни.

Кино считается лучшим средством постижения человеческой психологии. В фильмах стирается граница между реальным и выдуманным, объективным и субъективным, ментальным и физическим. Действия легко заменить визуальными и оптическими эффектами.

Предметы могут отражать чувства и внутреннее состояние человека. Зрителям гораздо интереснее наблюдать за происходящим, чем слушать рассказы об этом. Герой фильма становится своеобразным философом, способным донести другим свои мысли, показать их наглядно. При создании кино используется множество художественных приемов:

наплыв;
ускоренная съемка;
крупный план;
звуковой контрапункт;
трюковые и комбинированные съемки;
ретроспекция.

Наплыв — это особый прием, который позволяет постепенно сменять предыдущий монтаж следующим. Ускоренная съемка играет на эмоциональности зрителя, так как она передает напряжение или волнение героев.

При крупном плане отражаются чувства самих героев, а при звуковом контрапункте музыка идет вразрез с изображением. Комбинированные съемки позволяют показать сцены, которых в действительности не было. Но зритель даже не отличит их от тех, что были сняты в павильоне.

Фотореалистичная компьютерная графика

В 2021 году NVIDIA представила бета-версию приложения Canvas — оно позволяет создавать фотореалистичные пейзажи на основе готовых эскизов. Можно покрасить половину рабочего поля зеленым, половину голубым, а нейросеть прочитает ваши мысли и воссоздаст поле травы и ясное небо.

ИИ не собирает картинки из фрагментов чужих картин и фото, а создает именно уникальные изображения, с высокой степенью детализации. Нейросеть творит в режиме реального времени и сохраняет работу по слоям — так, чтобы потом это было удобно редактировать в Photoshop.

Пример работы в Canvas / Pureblogbd

Приложение призвано помочь CG-художникам избежать рутинной работы при отрисовке концептов или фонов. Вместо того, чтобы собирать фрагменты разных фотографий вместе, перекрашивать каждую травинку и каждый камешек под дневное или ночное освещение вручную, можно делегировать это искусственному интеллекту. Нужен только достаточно мощный компьютер.

Даже если нейросеть неправильно поняла художника и, скажем, нарисовала снег там, где нужен песок, можно это исправить, указав материалы, которые вы хотите задействовать. Но возможности ограничены простыми пейзажами: марсианские кратеры нейросеть не нарисует. Вставлять в пейзаж замки, мосты и прочие сложные сооружения тоже придётся самостоятельно. И, конечно, на детали картинки в Canvas пользователь повлиять может слабо. Можно подсказать нейросети, что слева должен быть камень, но нельзя определить, какая у него будет форма, текстура, оттенок.

Пока алгоритм несовершенен, он скорее подходит для начала работы над проектом. Хотя нельзя исключать, что не слишком требовательным заказчикам художники начнут продавать произведения нейросети, минимально их приправляя.

Нейросеть, которая создаёт эти пейзажи, называется GauGAN — в нейминге поиграли на созвучии с Гогеном. Это генеративно-состязательная сеть (generative adversarial network или GAN) — она обучается без человека, благодаря взаимодействию нескольких ИИ друг с другом. Впервые Nvidia представила «Гогена» ещё в 2019 году.

Пример работы GauGAN в 2019 году / VFX Serbia

Четыре года назад GauGAN работала медленнее и рисовала менее точно, компания не выкладывала программу в свободный доступ. Теперь приложение усовершенствовали — суммарно нейросеть обучалась на 5 миллионах фотографий.

Nvidia давно тренирует искусственный интеллект создавать фотореалистичные картинки. Есть, например, ещё одна нейронка StyleGAN — она с 2018 года практикуется в создании лиц несуществующих людей. Сейчас запустили целый фотосток, в котором продают 2,5 миллионов картинок.

Изображение несуществующей женщины от StyleGAN / Generated Photos