Сообщение Re[3]: Видеокодек на основе ИИ - будет ли? от 16.11.2025 17:26
Изменено 16.11.2025 17:27 vdimas
Re[3]: Видеокодек на основе ИИ - будет ли?
Здравствуйте, Shmj, Вы писали:
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на на народном платье, надетом на одного из персонажей.
С указанием точного цвета, особенностей материалов.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Это выглядит более перспективно.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на на народном платье, надетом на одного из персонажей.
С указанием точного цвета, особенностей материалов.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Это выглядит более перспективно.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)
Re[3]: Видеокодек на основе ИИ - будет ли?
Здравствуйте, Shmj, Вы писали:
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Это выглядит более перспективно.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)
V>>Никому оказалась не нужна механическая речь.
S>Ну так речь же о временах, когда качество воссоздания будет достаточным — чтобы не было признака механичности. Чтобы и ударение и интонация...
Ты ж любишь спрашивать у ИИ, вот спросил бы "Какой объем параметров для описания голоса конкретного артиста у современных музыкальных ИИ, которые делают кавер песни разными голосами?" ))
В общем, даже при ранних попытках описать особенности голоса для управления фонемами, быстро превзошли исходный сжатый речевой трафик, ради улучшения которого всё и затевалось.Короткий ответ: размер файла с параметрами голоса конкретного артиста обычно составляет от 40 до 200 мегабайт (МБ)
А если описывать голос качественно, чтобы можно было узнать голос человека после такого кодирования-декодирования — то вот тебе прикидочные цифры.
V>>Точное описание не будет меньше закодированных алгоритмами сжатия пикселей. ))
S>Тут я бы поспорил...
Угу...
Ну вот опиши словами несколько пусть даже периодических узоров на народном платье, надетом на одного из персонажей киношки.
С указанием точного цвета, особенностей материалов и т.д.
В общем, современные алгоритмы motion detection всё еще развиваются и именно они дают хороший буст сжатию видео при сохранении качества.
Фишка в том, что этот алгоритм выделяет движущиеся объекты (области изображения) и превращает движущиеся эти области почти в статические, т.е. где разница содержимого областей м/у кадрами минимальна, в итоге эта разница сжимается на порядки.
Это выглядит более перспективно.
А вот для upscaling в дорогих телеках применяют ИИ уже относительно давно.
Правда, в этой области (а) идёт быстрое устаревание разработок прошлых лет и (б) вангую, что эта функциональность на нашей памяти переползёт прямо в стандарты, типа как когда-то в стандарты звука переползли алгоритмы управления динамическим диапазоном из семейства Dolby. ))
(Поначалу алгоритмы семейства Dolby были примерно на тех же правах, как частные решения "по месту" в современных дорогих телеках некоторых производителей)