За основу взяли мультсериал «Флинстоуны». Искусственный интеллект, получивший название CRAFT — Composition, Retrieval and Fusion Network, обучали на более чем 25 тысяч коротких фрагментов мультфильма, говорится в статье, опубликованной на arXiv.org. В результате нейросеть смогла, пусть и не безошибочно, подобрать фон, движения персонажей и другие детали сцены на основе текстового описания картинки.
CRAFT не рисует картинку с нуля. Он на обучающей выборке «понимает», кто присутствует в кадре и что делает. А затем использует подходящие части роликов при генерации новых сцен. И пусть качество анимации вышло далеко не идеальным, однако программе удалось правильно интерпретировать описание и создать видео с сюжетом, о котором говорилось в описании.
Результат работы программы вы можете оценить прямо сейчас: