Re[5]: Видеокодек на основе ИИ - будет ли? - Компьютерные священные войны

Вот сейчас кодирование видео — один из самых математически сложных алгоритмов. И понятно, ведь видео это львиная доля трафика и нагрузки на процессор — видео это самый предпочитаемый способ развлечения и восприятия инфы.

И лидером вроде является AV1, который разрабатывал целый консорциум — крупные компании-участники: Google, Netflix, Amazon, Microsoft и др. и затратили около $150 млн. долларов на этот злосчастный алгоритмик.

А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?

Тогда трафик сократится в тысячи раз.

Здравствуйте, Shmj, Вы писали:

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?

Рекомендую в качестве "Hello world" использовать "Война и Мир".

S>Тогда трафик сократится в тысячи раз.

Ага, так и вижу: детская сказка "винни пух" в исполнении локализованного ИИ будет узкоглазой для азии, чернокожей для африки, крупножопой для южной америки...
С бесплатной лицензией рендер "не больше двух персонажей одновременно" — по этому, в массовых сценах все персонажи (включая главных) в случайные моменты времени будут появляться из ниоткуда и исчезать в никуда. Или прорисовываться частично.

Здравствуйте, Stanislaw K, Вы писали:

SK>Рекомендую в качестве "Hello world" использовать "Война и Мир".

Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ. Т.е. речь не о том чтобы человеческие тексты экранизировать — а чтобы по видео создать детальнейшее описание и потом по этому описанию на лету генерить картинку.

Вычислительные мощности будут нужны большие, но ведь сейчас уже добавляют аппаратную поддержку для нейросетей и возможно в будущем уже не покажется такой уж сильной нагрузкой — а каналы физически расширить сложнее, особенно беспроводные.

уже есть
во всяком случае я вакансии в стартапах находил еще в году так 2019
причем там уже были кое какие прототипы таких кодеков

Здравствуйте, Shmj, Вы писали:

S>Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ. Т.е. речь не о том чтобы человеческие тексты экранизировать — а чтобы по видео создать детальнейшее описание и потом по этому описанию на лету генерить картинку.

А потом обновил модель — и фильм заиграл новыми красками.

Здравствуйте, mike_rs, Вы писали:

_>А потом обновил модель — и фильм заиграл новыми красками.

Там могут быть такие мелочи, о которых и не вспомнишь. Ведь человек тоже не замечает большинство мелочей, ему главное общая картина.

Здравствуйте, Shmj, Вы писали:

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?

Я тебе всё таки рекомендую ну хоть что-нибудь почитать по нейросетям, что такое LLM/VLM, как они работают, что такое автоэнкодеры и т.д. Про то, что у них есть энкодеры, декодеры, своё внутреннее пространство для представления вектором-эмбеддингов. Тогда ты поймёшь, что если и делать такой кодек, то точно не на словах.

Так-то нейросетевые кодеки уже существуют, им много лет, картиночным уж точно. Для видео тоже есть, есть даже очень продвинутые. Но одно дело разработать алгоритм/метод/библиотеку, а другое — перейти на него всем, производителям железа в том числе.

Здравствуйте, Shmj, Вы писали:

SK>>Рекомендую в качестве "Hello world" использовать "Война и Мир".

S>Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ. Т.е. речь не о том чтобы человеческие тексты экранизировать — а чтобы по видео создать детальнейшее описание и потом по этому описанию на лету генерить картинку.

"Война и Мир" полностью удовлетворяет этим условиям.

S>Вычислительные мощности будут нужны большие, но ведь сейчас уже добавляют аппаратную поддержку для нейросетей и возможно в будущем уже не покажется такой уж сильной нагрузкой — а каналы физически расширить сложнее, особенно беспроводные.

На самом деле (с) не такие и большие мощности нужны. Для литературы достаточно отрисовывать небольшую сцену с весьма умеренной детализацией.

Читал как-то юмористический фантастический рассказ, там герой попал в литературный мир, населенный персонажами книг. "в помещение вошел мужчина в очках и галстуке. другой одежды на нем не было (потому что автор забыл её описать)".

S>И лидером вроде является AV1
Нет, лидером до сих пор является старый добрый H.264/AVC.

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?
Да, только есть один нюанс: потом это "сжатое до словесного описания" еще надо "разжать"

Желательно в то же состояние, что было до.

Ах да, ну и теорему Шеннона (первую), думаю, ИИ тоже вряд ли смогут отменить либо обмануть

Здравствуйте, Nuzhny, Вы писали:

S>>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?

N>Я тебе всё таки рекомендую ну хоть что-нибудь почитать по нейросетям,

Ты конкретно рекомендуй. А уже что-то я читал, много чего. Но у меня получается что-либо изучить только через задачу — т.е. нужно сделать задачу и я пытаюсь понять как.

Здравствуйте, DiPaolo, Вы писали:

DP>Да, только есть один нюанс: потом это "сжатое до словесного описания" еще надо "разжать"

Желательно в то же состояние, что было до.

Зачем до того же? Это сжатие без потерь — а где вы видели для видео сжатие без потерь? И зачем? Смысл видео в том чтобы кожаный смотрел на него своими моргалами. Детали часто не имеют значения — вот держит чел. банку с пивом — не все-ли равно какую, если это не уточняется и надпись не читабельна? Ты запомнишь просто пиво и все, но другое тебе не нужно знать.

S>Зачем до того же? Это сжатие без потерь — а где вы видели для видео сжатие без потерь? И зачем? Смысл видео в том чтобы кожаный смотрел на него своими моргалами. Детали часто не имеют значения — вот держит чел. банку с пивом — не все-ли равно какую, если это не уточняется и надпись не читабельна? Ты запомнишь просто пиво и все, но другое тебе не нужно знать.

Есть как с потерями, так и без. Используется и то, и другое. Для разных целей. Это лишь будет влиять на качество. Декодировать тебе нужно до того же состояния, что и было до енкодирования. Вопрос качества определяется как раз на стороне енкодера.

Здравствуйте, DiPaolo, Вы писали:

DP>Есть как с потерями, так и без. Используется и то, и другое. Для разных целей. Это лишь будет влиять на качество. Декодировать тебе нужно до того же состояния, что и было до енкодирования. Вопрос качества определяется как раз на стороне енкодера.

Для практики это не нужно — человеку не нужно чтобы бит в бит. Главное суть — суть — посмотреть видео с неким смыслом.

S>Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ.

Ты про рендеринг моделей и сцен в блендере/3д-максе/играх?
Так это уже давно реализовано.

Здравствуйте, Shmj, Вы писали:

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием...

Ой! Может не надо, а!?

Здравствуйте, Shmj, Вы писали:

S>Ты конкретно рекомендуй. А уже что-то я читал, много чего.

Любую, принцип работы везде один (по факту нет, но грубо — да).
Ты же знаешь, что в нейросети есть энкодер, внутреннее представление (embedding или latent space) и декодер. Энкодер может быть текстовым, может быть визуальным — для изображений. Они переводят вход (текст или картинку) в вектора внутреннего представления — эмбеддинги или как их ещё можно назвать. Далее, с ними уже там происходят манипуляции, в результате рождается результат — другой вектор(а) в этом же пространстве. Которые поступают на декодер и выдаются человеку.
Если мы будем что-то хранить в виде текста, то получим в результате непонятно что, а именно сочинение на заданную тему. Но нам же надо сжимать текст/картину/видео без потерь, то есть так, чтобы пользователи видели всё одинаково, при этом размер должен быть минимальным. Для этого надо, чтобы кодек состоял из энкодера-декодера одинаковой архитектуры и с одинаковыми весами (тут можно поспорить, но в целом так), во всех устройствах для просмотра был только декодер, для сжатия — только энкодер. А под видом архива будет распространяться набор векторов внутреннего представления нейросети (сжатых поверх любым архиватором без потерь).
Вот этот принцип нельзя было пропустить при прочтении ЛЮБОЙ современной книги или любой статьи про нейросети, автоэнкодеры, LLM.

Здравствуйте, Nuzhny, Вы писали:

N>Но нам же надо сжимать текст/картину/видео без потерь, то есть так, чтобы пользователи видели всё одинаково, при этом размер должен быть минимальным.

Не обязательно прямо чтобы одинаково — мелкие девиации не имеют особого значения, если не описаны. Мы же люди — вы не делайте из нас роботов то. Нам важна суть, а мелочи мы не помним, главное чтобы они были.

N>Для этого надо, чтобы кодек состоял из энкодера-декодера одинаковой архитектуры и с одинаковыми весами (тут можно поспорить, но в целом так)

Ну вот тут мы теряем универсальность и как бы привязываемся к модели. А хотелось бы универсальности.

Здравствуйте, Shmj, Вы писали:

S>Не обязательно прямо чтобы одинаково — мелкие девиации не имеют особого значения, если не описаны. Мы же люди — вы не делайте из нас роботов то. Нам важна суть, а мелочи мы не помним, главное чтобы они были.

Какая суть? Это же видео, а не книга. В книге можно написать: человек в галстуке и шляпе. В видео важна каждая деталь, мимика, цвет глаз и т.д. Игра актёров мимикой, глазами — это важно в кино. В том-то и дело, что мы люди и нам это важно.

S>Ну вот тут мы теряем универсальность и как бы привязываемся к модели. А хотелось бы универсальности.

Привязка к модели — это и есть та самая универсальность. Иначе ты получишь 1001 экранизацию книги близко к тексту.

Здравствуйте, Nuzhny, Вы писали:

N>Какая суть? Это же видео, а не книга. В книге можно написать: человек в галстуке и шляпе. В видео важна каждая деталь, мимика, цвет глаз и т.д. Игра актёров мимикой, глазами — это важно в кино. В том-то и дело, что мы люди и нам это важно.

Так пусть ИИ сначала распознает, опишет все что видит. А потом так же все воссоздаст.

S>>Ну вот тут мы теряем универсальность и как бы привязываемся к модели. А хотелось бы универсальности.
N>Привязка к модели — это и есть та самая универсальность. Иначе ты получишь 1001 экранизацию книги близко к тексту.

Ну и пусть 1001 экранизация — так даже интереснее.

Здравствуйте, Shmj, Вы писали:

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео.

Были попытки похожим образом сжимать/кодировать человеческую речь — распознавали фонемы-токены и воспроизводили эти фонемы по номерам и таймингам на другой стороне.
Трафик ужимался что-то нап орядок, схема прекрасно работает, по всему миру защитили десятки диссеров...
Но не взлетело. ))
Никому оказалась не нужна механическая речь.

А при попытке закодировать еще интонировку получили трафик примерно как у хороших алгоритмов сжатия речи, только с намного большими вычислительными затратами при кодировании-раскодировании. И все-равно, на приёмной стороне получали другой голос, чем на стороне отправки.

Но зато ИИ неплохо показал себя в деле улучшения качества речи на приёмной стороне в условиях помех и пропажи UDP-пакетов.
Но да, всё еще требуются нехилые ресурсы.
Но схема выглядит простой и надёжной.
Т.е., изначально можно кодировать с невысоким качеством, экономя трафик, восстанавливая субъективное качество на приёмной стороне через ИИ.

S>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?

Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))

Хорошей идеей, как и в случае кодирования речи, является улучшение качества видео (upscaling) на приёмной стороне.

S>Тогда трафик сократится в тысячи раз.

Дудки. ))

Здравствуйте, Shmj, Вы писали:

S>Ну и пусть 1001 экранизация — так даже интереснее.

Только каждый будем смотреть свой фильм. И, весьма вероятно, что второй раз тот же человек будет смотреть уже другой фильм

Здравствуйте, vdimas, Вы писали:

V>Никому оказалась не нужна механическая речь.

Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...

S>>А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен?
V>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))

Тут я бы поспорил...

Здравствуйте, Marty, Вы писали:

S>>Ну и пусть 1001 экранизация — так даже интереснее.
M>Только каждый будем смотреть свой фильм. И, весьма вероятно, что второй раз тот же человек будет смотреть уже другой фильм

И что? Когда в театр ходишь — там же актеры не пиксель в пиксель все воссоздают, верно? И что? Кого это беспокоит?

Здравствуйте, Shmj, Вы писали:

S>А вот сейчас появился ИИ, который по словесному поносу может генерить видео. Плохо, но генерит. А ведь с развитием качество будет лучше и лучше, возможно что каждое видео можно будет сжать до достаточно подробного словесного описания каждой из сцен? Или спец. язык придется придумывать? Смогут ли?
А ты представляешь сколько памяти будет занимать такой кодек? И каждая новая версия — это петабайтные апдейты. Просто для сведения. Сами модели — фигня, все очень просто. А вот коэффициенты уже обученных моделей, даже на не очень сложных моделях — зачастую гигабайты! Тот же дипсик, работающий с текстом — в полной версии ни хрена не влезет в 5090, там ЕМНИП более 100 гигов требуется. А это текстовая модель, самая простая! Ну в принципе с музыкой тоже не сложно. Сколько там требуется для моделей, генерящих видео достаточно качественно — страшно представить!

Здравствуйте, Shmj, Вы писали:

V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...

Так поспорь! Где аргументы?
Всё таки рекомендую изучить работы в этой тебе, как работают автоэнкоддеры, как они сжимают данные.

Здравствуйте, elmal, Вы писали:

E>А ты представляешь сколько памяти будет занимать такой кодек? И каждая новая версия — это петабайтные апдейты. Просто для сведения. Сами модели — фигня, все очень просто. А вот коэффициенты уже обученных моделей, даже на не очень сложных моделях — зачастую гигабайты! Тот же дипсик, работающий с текстом — в полной версии ни хрена не влезет в 5090, там ЕМНИП более 100 гигов требуется. А это текстовая модель, самая простая! Ну в принципе с музыкой тоже не сложно. Сколько там требуется для моделей, генерящих видео достаточно качественно — страшно представить!

Так я же не говорю что прямо завтра сделают. Сейчас с каждым годом память все дешевле, процессоры все мощнее. Вот и будет для чего использовать эти мощности.

Здравствуйте, Shmj, Вы писали:

S>Тогда трафик сократится в тысячи раз.

Если представить себе твою идею в своей сути, то у тебя предпологается что есть на приемной стороне все возможные видео на свете, и надо только передать номер этого видео чтобы его проиграть.
Если сделать оптимизацию и выкинуть все невозможные видео, коих будет 99.99%, в виде разнообразного белого шума, то на фоне бесконечности всех видео, таких видео будет бесконечное существенно меньшего порядка.
Если сделать еще одну оптимизацию и хранить только диф соседних видео, то базовых видео будет еще более меньшего порядка бесконченое число.

Если научить иерархическую слоистую структуру коей и является нейросеть, классторизировать такие видео, и по некому GUID длинной скажем 4096 байт, востанавливать видео в виде подходящем для воспроизведения, то наверное такая "архиватор" будет работать.
Но на приемной стороне потребуется бесконечный сторадж содержащий в себе все все возможные видео.

Возникает вопрос а зачем такой геморой — не проще ли передать видео?
Короче типичная "отличная идея" в которой небыло сделанно никакой оценки, и поэтому кажеться все так классно.)

Здравствуйте, imh0, Вы писали:

I>Если представить себе твою идею в своей сути, то у тебя предпологается что есть на приемной стороне все возможные видео на свете, и надо только передать номер этого видео чтобы его проиграть.

Там не нужно прямо все видео на свете — достаточно всех предметов на свете + умения их комбинировать, примерно так. К примеру лицо человека определяется 50 точками, емнип (или около того) + несколько бит для прически и пр.

Но можно и для ключевых кадров дать байты изображения (как в JPG), чтобы потом нейросеть на основе этих ключевых кадров додумывало.

Здравствуйте, Shmj, Вы писали:

S>К примеру лицо человека определяется 50 точками, емнип (или около того)

И близко нет. Точки — это для выравнивания лица. Потом дескриптор для идентификации. Если продолжать аналогию, то для человека достаточно его паспорта, который позволяет однозначно его идентифицировать. Я правильно понимаю, что тонкость игры актеров не нужна: хватит базового лица и умения морфить по текстовому описанию эмоций?

Здравствуйте, Shmj, Вы писали:

S>>>Ну и пусть 1001 экранизация — так даже интереснее.
M>>Только каждый будем смотреть свой фильм. И, весьма вероятно, что второй раз тот же человек будет смотреть уже другой фильм

S>И что? Когда в театр ходишь — там же актеры не пиксель в пиксель все воссоздают, верно? И что? Кого это беспокоит?

Да дофига людей, как только появилась возможность смотреть кинофильмы, перестали ходить в театры. В том числе из-за отличающихся "деталей" при повторных просмотрах. А многие и не начинали ходить, из за отличий от их представлений.

Здравствуйте, Nuzhny, Вы писали:

N>И близко нет. Точки — это для выравнивания лица. Потом дескриптор для идентификации. Если продолжать аналогию, то для человека достаточно его паспорта, который позволяет однозначно его идентифицировать. Я правильно понимаю, что тонкость игры актеров не нужна: хватит базового лица и умения морфить по текстовому описанию эмоций?

Это больше к "аниме" относится. В современных телесериалах морфинг не обязательная опция удорожающая актера. эмоции персонажа передаются словами "я боюсь" "я рад" "я зол" "ты испугал меня" и т.д

Здравствуйте, Shmj, Вы писали:

S>Там же будет детальное описание каждой из сцен: откуда падает свет, оттенки и т.д. И скорее всего не на человеческом языке уже а на спец. языке, который только для ИИ.

А зачем нужен спец. яхык? Помнится, кое-кто утверждал, что ИИ знает все языки мира. Запомнить любой словарь — как два байта переслать. Широта охвата.

Здравствуйте, Shmj, Вы писали:

V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...

Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))

Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)

В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.

V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...

Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.

В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.

Кстате, коль обычно при студийном сжатии ресурсы кодека не ограничены, то ИИ мог бы помочь лучше выделять движущиеся объекты на изображении.

Это выглядит более перспективно и технически реализуемо уже прямо сейчас.

А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)

Здравствуйте, vdimas, Вы писали:

V>Угу...
V>Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
V>С указанием точного цвета, особенностей материалов и т.д.

Можно для ключевых сцен делать 1 фото, а уже ИИ пусть на основе фото додумывает

Здравствуйте, Shmj, Вы писали:

S>Так я же не говорю что прямо завтра сделают. Сейчас с каждым годом память все дешевле, процессоры все мощнее. Вот и будет для чего использовать эти мощности.
Как кодек — без шансов. Ибо у нейросеток проблема — на 1 запрос выдают разные значения. При этом начнешь дообучать, делаешь какой то патчик — вообще все меняется. Будет условно говоря фильм, который постоянно будет смотреться по другому

.

Для генерации же контента и фильмов предполагаю что рано или поздно будут активно использовать. Но — высокооплачиваемые актеры, а также владельцы авторских прав, на которых нейросетки обучались — они будут всячески будут вставлять палки в колеса, чтоб не терять сверхдоходы. И так как такие товарищи очень богатые и влиятельные, будут очень сильно вставлять палки в колеса. Возможно устраивающий их компромисс — это когда какой актер будет получать гонорар как сейчас, тупо за внешку, но вообще ничего делать не будет — это возможно как компромисс устроит.

Здравствуйте, elmal, Вы писали:

S>>Так я же не говорю что прямо завтра сделают. Сейчас с каждым годом память все дешевле, процессоры все мощнее. Вот и будет для чего использовать эти мощности.
E>Как кодек — без шансов. Ибо у нейросеток проблема — на 1 запрос выдают разные значения. При этом начнешь дообучать, делаешь какой то патчик — вообще все меняется. Будет условно говоря фильм, который постоянно будет смотреться по другому

.

Я уже писал — норм. В театре тоже так — не пиксел в пиксел. Это надуманная концепция что должно быть пиксел в пиксел — наоборот, каждый раз смотришь и все немножко иначе — так даже интереснее.

Здравствуйте, Shmj, Вы писали:

S>Тогда трафик сократится в тысячи раз.

Смотреть видео глазами — прошлый век.
Зрители подключаются к нейроинтерфейсу, через который ИИ им сообщает, что они только что посмотрели офигенный фильм.
Огромная экономия ресурсов.

Здравствуйте, alexsmirnoff, Вы писали:

A>Смотреть видео глазами — прошлый век.
A>Зрители подключаются к нейроинтерфейсу, через который ИИ им сообщает, что они только что посмотрели офигенный фильм.
A>Огромная экономия ресурсов.

Ну вы будете делать операцию по имплантации интерфейса?

Здравствуйте, Shmj, Вы писали:

S>Я уже писал — норм. В театре тоже так — не пиксел в пиксел. Это надуманная концепция что должно быть пиксел в пиксел — наоборот, каждый раз смотришь и все немножко иначе — так даже интереснее.

Театр не нужен практически никому. Постоянно туда ходят только ~~маргиналы~~редкие ценители этого вида искусства

Здравствуйте, Shmj, Вы писали:

S>Здравствуйте, vdimas, Вы писали:

V>>Угу...
V>>Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
V>>С указанием точного цвета, особенностей материалов и т.д.

S>Можно для ключевых сцен делать 1 фото, а уже ИИ пусть на основе фото додумывает

Во-от!

Итого, ты предлагаешь гнать ключевые кадры, как в современных кодеках сжатия видео?
Это уже львиная доля трафика, бо разностные кадры сжимаются чудовищно сильно, в сравнении с ключевым кадром, особенно с motion detection.

А потом ты обнаружишь, что трудно в каждый момент времени алгоритмически понять — на каком фото узор выглядит достаточно хорошо и одновременно так и требуется требуется зрителю, чтобы узор выглядел именно в этом кадре хорошо, а на каком искажённо (складки, угол зрения к плоскости узора, тени и т.д.). И еще увидишь, что разные части экрана требуют разных подробностей в разные моменты времени.

В общем, upscaling хорош тем, что действует относительно независимо на различных участках кадра и сохраняет особенности изображения на каждом участке.

Если включить здравый смысл и порассуждать, то некий баланс видится в том, что ключевые кадры могут гнаться в хорошем разрешении — они будут как бы "настраивать" ИИ на характер изображения, плюс задавать общее качество передачи, а разностные кадры могут гнать в кратно меньшем разрешении, полагаясь на ИИ-upscaling.

При этом сам телек дополнительно преобразует из, допустим, 4k описанной передачи в 16k через тот же ИИ-upscaling.
Эта схема выглядит вполне себе рабочей.

	От:	Shmj
	Дата:	14.11.25 10:18
	Оценка:

	От:	Stanislaw K
	Дата:	14.11.25 10:35
	Оценка:	+2

	От:	Shmj
	Дата:	14.11.25 10:45
	Оценка:

От:	Великий Мессия	google
Дата:	14.11.25 11:01
Оценка:	+1

	От:	mike_rs
	Дата:	14.11.25 11:03
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	14.11.25 11:16
Оценка:

От:	Философ	http://vk.com/id10256428
Дата:	14.11.25 18:58
Оценка:

От:	Marty	https://www.youtube.com/channel/UChp5PpQ6T4-93HbNF-8vSYg
Дата:	15.11.25 22:06
Оценка:

	От:	elmal
	Дата:	16.11.25 05:09
	Оценка:	+3

	От:	imh0
	Дата:	16.11.25 09:36
	Оценка:

	От:	Privalov
	Дата:	16.11.25 14:06
	Оценка:

	От:	Privalov
	Дата:	16.11.25 14:44
	Оценка: