Новости анимации

Дисней учит ИИ генерировать анимацию раскадровки из сценариев

Кардинал Дисней

Дисней разрабатывает направления создания аниматика с помощью ИИ. Это позволит упростить работу писателей и ускорит создание фильма. Каких успехов добились и что уже можно получить, а также, о  чем идет речь читайте в статье.

Disney учит ии

График, иллюстрирующий систему AI для преобразования текста в анимацию. Фото с сайта venturebeat.com

ИИ, который создает оригинальные клипы из текстовых фрагментов, не так нов, как кажется. В прошлом году исследователи подробно описали систему, которая использовала пару нейронных сетей – слои математических функций, смоделированных по образцу биологических нейронов, – для создания видео длиной 32 кадра и размером 64 × 64 пикселя из описаний типа «игра в гольф на траве». Но в опубликованной статье на сервере препринтов Arxiv.org ученые из Disney Research и Rutgers развивают эту идею на шаг вперед, предлагая комплексную модель, которая может создавать грубую раскадровку и видео с изображением текста из фильмов. В частности, их модель преобразования текста в анимацию создает анимацию без необходимости аннотированных данных или этапа предварительной подготовки с учетом входного текста, описывающего определенные действия.

«Автоматическая генерация анимации из текста на естественном языке находит применение во многих областях, например, в написании сценариев фильмов, обучающих видеороликах и общественной безопасности … Эти системы, могут быть особенно полезны для создания сценариев, поскольку позволяют быстрее выполнять итерации, создавать прототипы и проверять концепцию для создателей контента», – писали исследователи. – «В этой статье мы разрабатываем систему преобразования текста в анимацию, которая способна обрабатывать сложные предложения … Цель системы – не заменить писателей и художников, а сделать их работу более эффективной и менее утомительной».

Cardinal Disney

Фото с сайта variety.com

Как объясняет команда, перевод текста в анимацию не является простой задачей. Ни входные предложения, ни выходные анимации не имеют фиксированной структуры, что, по их словам, является причиной того, что большинство инструментов преобразования текста в видео не могут обрабатывать сложные предложения. Чтобы обойти ограничения предыдущих работ, соавторы создали модульную нейронную сеть, состоящую из нескольких компонентов: новый модуль синтаксического анализа сценариев, который автоматически изолирует соответствующий текст от описаний сцен в сценариях; модуль обработки естественного языка, который упрощает сложные предложения с использованием набора лингвистических правил и извлекает информацию из упрощенных предложений в предопределенные представления действий; и модель генерации анимации, которая переводит указанные представления в последовательности анимации.

script animation generation

Стадия упрощения текста в предлагаемой системе ИИ. Фото с сайта venturebeat.com

Упрощенный подход значительно упрощает извлечение ключевой информации из сценария, говорят исследователи, и с этой целью их система автономно определяет, содержит ли данный фрагмент конкретную синтаксическую структуру, а затем разбивает и собирает его в более простые предложения, рекурсивно обрабатывая его до дальнейшего упрощения. возможно. Шаг «координации» затем применяется к предложениям с одинаковым синтаксическим отношением к голове и выполняющим ту же функциональную роль, и, наконец, агент лексического упрощения сопоставляет действия в упрощенных предложениях с 52 анимациями (расширенными до 92 с помощью словаря синонимов) в предопределенной библиотеке.

Затем конвейер, получивший название «Cardinal», принимает в качестве входных данных действия и создает предварительные настройки в Unreal, популярном движке видеоигр. Рисуя определенную библиотеку анимаций, предварительно загруженные объекты и модели, которые она может использовать для создания персонажей, она создает трехмерные анимационные видеоролики, которые приблизительно отображают обработанный сценарий.

Для обучения системы исследователи составили подборку описаний сцен из 996 сценариев, составленных из более чем 1000 сценариев, взятых из свободно доступных источников, включая IMSDb, SimplyScripts и ScriptORama5. В конце концов, оно включало 525 708 описаний, содержащих 1 402 864 предложения, 920 817 (более 40%) из которых имели хотя бы один глагол действия.

В качественном тесте, который поручил 22 участникам оценить 20 анимаций, сгенерированных системой по пятибалльной шкале (например, если показанное видео было разумной анимацией для текста, сколько текстовой информации было отображено в видео, и сколько информации в видео присутствовало в тексте), 68% сказали, что система генерировала «разумную» анимацию из входных сценариев. «Помимо ограничений нашей системы, любое несогласие может быть объяснено двусмысленностью и субъективностью задачи», – добавили исследователи.

Тем не менее, команда признала, что система не идеальна. Его список действий и объектов не является исчерпывающим, и иногда лексическое упрощение не в состоянии сопоставить глаголы (например, «часы») с подобными анимациями («смотреть») или создает только несколько упрощенных предложений для глагола, который имеет много предметов в оригинальное предложение. Исследователи намерены устранить эти недостатки в дальнейшей работе.

«Внутренние и внешние оценки показывают разумную производительность системы… В конце концов, мы хотели бы использовать дискурсивную информацию, рассматривая последовательность действий, которые описаны в тексте. Это также поможет устранить неоднозначность в тексте в отношении действий», – написала команда. – «Более того, наша система может быть использована для генерации обучающих данных, которые можно использовать для обучения сквозной нейронной системы».

Источник Venturebeat

Заглавное фото Variety

Share: