Re[3]: Видеокодек на основе ИИ - будет ли?
От: vdimas Россия  
Дата: 16.11.25 17:26
Оценка:
Здравствуйте, Shmj, Вы писали:

V>>Никому оказалась не нужна механическая речь.

S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...

Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))

Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)

В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.


V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))

S>Тут я бы поспорил...

Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.

В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.

Кстате, коль обычно при студийном сжатии ресурсы кодека не ограничены, то ИИ мог бы помочь лучше выделять движущиеся объекты на изображении.
Это выглядит более перспективно и технически реализуемо уже прямо сейчас.

А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)
Отредактировано 16.11.2025 17:33 vdimas . Предыдущая версия . Еще …
Отредактировано 16.11.2025 17:27 vdimas . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.