Информация об изменениях

Сообщение Re[3]: Видеокодек на основе ИИ - будет ли? от 16.11.2025 17:26

Изменено 16.11.2025 17:27 vdimas

Старый текст
Новый текст
Разница

Re[3]: Видеокодек на основе ИИ - будет ли?

Здравствуйте, Shmj, Вы писали:

V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...

Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))

Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)

В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.

V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...

Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на на народном платье, надетом на одного из персонажей.
С указанием точного цвета, особенностей материалов.

В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.

Это выглядит более перспективно.

А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)

Re[3]: Видеокодек на основе ИИ - будет ли?

Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)

В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.

V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...

Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.

В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.

Это выглядит более перспективно.

А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)