ИИ не сможет генерировать фильмы без участия человека до появления AGI, которого не стоит ждать ранее 3-5 лет
Об этом на конгрессе молодых ученых заявил руководитель лаборатории научных исследований T-Bank AI Research Даниил Гаврилов.
by Spark_news · SPARKВ рамках сессии «Медиа как наукоемкая индустрия» эксперты из сфер науки и кинематографа обсудили перспективы использования искусственного интеллекта в киноиндустрии.
В дискуссии приняли участие руководитель лаборатории научных исследований T-Bank AI Research Даниил Гаврилов, генеральный директор Института Развития Интернета Алексей Гореславский, создатель нейросети Kandinsky Денис Димитров, генеральный продюсер Rutube Давид Кочаров.
Большинство специалистов соглашаются с тем, что в ближайшие три-пять лет мы увидим значительный прорыв в возможностях ИИ. Даниил Гаврилов, руководитель лаборатории научных исследований искусственного интеллекта T-Bank AI Research.
Для того, чтобы создавать медиа контент без участия человека, необходима сильная и качественная модель искусственного интеллекта. На данный момент модель не может решить даже простейшую задачу, если человек ее замысловато сформулирует, что возвращает научное сообщество к созданию именно языковой модели, которой будет подвластно создание качественного контента, что произойдет не ранее, чем через 3-5 лет.
Я очень люблю обсуждать такие вопросы, потому что это позволяет рассуждать о горизонтах планирования, которые настолько далеки, что никто не сможет меня опровергнуть. Главное ограничение, с которым мы сталкиваемся, обсуждая возможность создания технологий без участия человека, заключается в необходимости создания сильного искусственного интеллекта. Нам нужна языковая модель, способная генерировать новый контент и взаимодействовать с видеогенерирующей моделью, которая обеспечит качество на порядки выше нынешнего. Однако это все упирается в необходимость сильного искусственного интеллекта.
Те достижения, о которых говорят крупнейшие компании, связаны с масштабированием языковых моделей для генерации видео, но это масштабирование достигается за счет увеличения моделей и объемов данных. У нас есть много возможностей для улучшения моделей, связанных со зрением, однако, они заканчиваются для языковых моделей. Они пока не способны решать незнакомые задачи. Например, даже простые программные задачи могут быть сформулированы так замысловато, что модели не смогут их решить, несмотря на их простоту.
Вопрос о создании медиа-контента без участия человека зависит от преодоления текущих ограничений искусственного интеллекта и нахождения новых источников масштабирования, что становится особенно актуальным, поскольку возможности увеличения размеров существующих моделей подходят к концу. Ян ЛеКун считает, что AGI появится не ранее, чем через пару лет, Сэм Альтман предполагает срок около 1000 дней. Ориентируясь на их прогнозы, можно сделать вывод, что это может случиться не ранее 3-5 лет, и мы увидим качественный скачок в возможностях искусственного интеллекта.
Это на самом деле поле для прокрастинации сидеть и думать, что такое AGI, вместо того, чтобы заниматься этим и создавать его, потому что это бессмысленно. Намного важнее стремиться к его созданию, так как это позволит нам построить то, что мы никогда не умели. Примером может служить Chat GPT, который вызвал большой интерес, потому что мы научились делать то, чего раньше не умели. Например, теперь можно легко саммаризировать длинный текст и превращать его в короткий. Это ранее было сложно. Хочется верить, что нас ждет скачок в развитии AGI, но потребуется еще несколько достижений. Для таких языковых моделей важно получать обратную связь от окружающего мира, возможно, в формате обучения с подкреплением. Обучать их на задачах, чтобы данные менялись в процессе, а не просто учить. Наша команда недавно выпустила статью в коллаборации с AIRI, где мы исследовали адаптивные модели в обучении с подкреплением. Эта область активно развивается, и я предполагаю, что на достижения уйдет не менее 3-5 лет.
Почему нейросеть отстает от человека. Денис Димитров, создатель нейросети Kandinsky
Модели не могут рассуждать на глубокие темы так, как это делает человек, им трудно дается генерализация. Самое сложное для нейросети — сгенерировать видео с учетом законов физики. Ученые сомневаются в том, что этого получится достичь, однако важно учитывать, что видео-модели вобрали в себя около 10% процентов всего существующего контента. Видеогенерация активно улучшается не более года, в то время как на совершенствование текстовой модели ушло уже более 3 лет, что дает надежды на появление качественного генеративного видео-контента уже через 2-3 года.
Нейросеть и кадры в киноиндустрии. Алексей Гореславский, генеральный директор Института Развития Интернета
Сгенерированные актеры дешевле обычных: они не умирают, не уходят в запой и не употребляют, их можно использовать 24 часа в сутки. Нейросети не научатся смешно шутить, только в далеком-далеком будущем, ведь моделям сложно делать что-то нестандартное, то, что не основано на существующих вещах.
Об использовании ИИ на Rutube, Давид Кочаров, генеральный продюсер Rutube
В нашем холдинге цифровых активов мы внедряем ИИ во все сферы, включая продакшн, и работаем над созданием качественных продуктов. Например, на Rutube мы разрабатываем эффективный видеоплеер и предлагаем музыкантам автоматизированные инструменты для создания обложек и клипов.
Наша команда планирует внедрить инновации, обеспечив доступ к контенту для слабослышащих зрителей: начиная со следующего года, все наши оригинальные проекты будут снабжены русскими субтитрами с помощью нейросети. Мы обнаружили, что для многих слабослышащих людей субтитры ценнее, чем сурдоперевод.
Тезисы для Телеграм-каналов:
● ИИ будет генерировать качественный видеоконтент не ранее чем через 3-5 лет
● Самое сложное для нейросети - генерация видео с учетом законов физики
● Сгенерированные актеры дешевле обычных
● Нейросети помогают в создании контента для слабослышащих
● Генеративные модели не смогут смешно шутить в ближайшем будущем
● На данный момент видео-модели обучены всего на 10% существующего контента