
В работе рассматривается задача установления теоретического предела прозрачного сжатия аудиосигналов — минимального битрейта, при котором сжатый звук остаётся субъективно неотличимым от оригинала для слушателя с сохранным слухом. Показано, что данный предел определяется не информационной энтропией исходного сигнала, а перцептивной энтропией, то есть объёмом информации, реально воспринимаемой человеческим слухом. В работе рассматриваются ключевые психофизические закономерности, лежащие в основе современных систем аудиосжатия — MP3, AAC, Opus и им подобные. В частности, анализируются такие явления, как неравномерное восприятие частот (описываемое шкалой Барка), способность громких звуков маскировать соседние по частоте или времени компоненты (спектральное и временное маскирование), а также минимальный уровень звукового давления, различимый на фоне полной тишины. Кроме того, в статье подчёркивается значение когнитивных процессов, заключающееся в активной интерпретации звука и выделении релевантных паттернов. Отдельное внимание уделяется тому, как индивидуальные особенности слуха — например, его снижение или использование слуховых протезов — могут влиять на восприятие сжатого аудио.
