На главную страницу
Rambler's Top100
Book's Выставки, тесты, шоу... Конференция, ее архивы, участники, большой путь... Самодельные конструкции, схемы ... Вопросы и ответы, справочники ... Ссылки, команда сайта ...

Электронное
периодическое издание

Книги, статьи ...          

 

Громкость. Новый подход

Часть I. Предпосылки

Если задать вопрос, какие проблемы сейчас стоят перед электроакустикой, то один из возможных ответов на него будет таким: запись и дальнейшее воспроизведение музыки без потерь не получаются. В последние годы выяснилось, что применяемый издавна термин "качество звучания" применительно к музыкальным фонограммам не содержит ничего конкретного. Мало того, что не видна связь между качеством звучания и объективными параметрами звукового сигнала, так еще и определить набор субъективных характеристик, ответственных за восприятие музыки, оказалось весьма непросто. В этом направлении трудно переоценить работу А.М. Лихницкого "Качество звучания", в которой он сформулировал и систематизировал эти самые субъективные характеристики. Следующий шаг, который теперь необходимо сделать, это связать качество звучания в его новом понимании с объективными параметрами.

Сразу надо отметить, что замеченные звуковые парадоксы никак не вписываются в существующую теорию слухового восприятия. Поэтому они и называются аномалиями. Значит, прежде всего надо разобраться в том, какими же еще свойствами обладает механизм слухового восприятия.

По моему мнению, трудность решения этой задачи преувеличена. Трудно судить о причине топтания на месте, может быть, у специалистов не хватает стимулов… Но в этом случае, обращаясь к этим специалистам, я говорю: тогда уж не удивляйтесь, что за решение этой задачи берутся люди, в общем-то посторонние. Нам некогда ждать.

Но вернемся к музыкальным программам. Ведь именно их одних касаются все звуковые чудеса! Воспроизведение речи в настоящее время проблем не вызывает. Воспроизведение звукоряда к фильмам успешно развивается. Так почему же такие сложности с музыкой?

Лично меня устраивает ответ на этот вопрос А.М. Лихницкого [1]. Коротко этот ответ выглядит так:
Музыка, помимо смысловой, содержит в себе еще и эстетическую информацию. В свою очередь, эта информация разделяется на интеллектуальную и эмоциональную составляющие. Интеллектуальное содержание музыки всегда на виду. Упорядоченность звуков, характеризуемых высотой и длительностью, может устойчиво существовать в разных формах, начиная с нотного текста и кончая памятью слушателя. Но этого нельзя сказать об эмоциональном содержании. В памяти слушателя оно не сохраняется. Эстетическая организованность эмоционального содержания музыки может быть беспредельной, т.е. не уступать по сложности интеллектуальному содержанию. Сложность передачи музыки обусловлена как раз тем, что пока неизвестно, в какой форме существует эмоциональная составляющая и как обеспечить ее передачу без потерь. Именно в передаче эмоционального содержания музыки как раз и возникают все проблемы.

Чтобы хоть как-то разобраться в этом вопросе, давайте сначала посмотрим, можно ли в процессе решения нашей задачи сузить поле поисков. Для этого воспользуемся тем, что музыку можно представить как непрерывно протекающий во времени процесс в координатах высота - громкость - время (Рис. 1). Характеристиками звукового сигнала, если он является носителем музыки, являются в этом случае частота - интенсивность - время. Часто эти представления отождествляются между собой, хотя первое выражение относится к субъективному восприятию, а второе - к физическим параметрам. Но мы пока не будем с этим спешить, сначала посмотрим, насколько это допустимо.

Итак, разделим нашу систему на две условно независимые части: высота - время и громкость - время. Рассмотрим первую плоскость. Без труда можно увидеть, что в этих координатах заключено все интеллектуальное содержание музыки. В самом деле, нотная запись как раз и представляет собой способ описания зависимости высоты от времени, длительности звуков во времени, длительность пауз между звуками. А что же тогда находится в плоскости громкость - время? Не эмоциональное ли содержание? Если принять за основную часть эмоционального содержания динамические контрасты и динамические оттенки, то можно ответить: да, основная часть эмоционального содержания. Интонация и ритмические оттенки, также являющиеся по А. Лихницкому средствами наполнения музыки эмоциональным содержанием, распределяются в равной мере на обе плоскости. (Можно показать, что увеличение паузы ведет к увеличению громкости последующего звука. К этому же ведет и увеличение частоты звука при одной и той же интенсивности.)

Мы не будем на этом сейчас заострять внимание. Пока нам достаточно того, что в координатах громкость - время находится большая часть эмоционального содержания музыки.

Но вернемся на время к интеллектуальному содержанию. Давайте попробуем вспомнить, были ли когда - либо у кого - либо проблемы с определением высоты звука? Лично я такого вспомнить не могу. Интеллектуальное содержание под силу воспроизвести даже карманному радиоприемнику. Ни один аппарат не воспроизвел вместо одной ноты другую, вместо звука - паузу. Со стороны психоакустики тоже установлено однозначное соответствие субъективно воспринимаемой высоты звука в мелах и частоты звукового сигнала в герцах. Поэтому предлагаю плоскость высота - время из дальнейшего рассмотрения исключить за ненадобностью. Остановимся подробнее на эмоциональной плоскости.

Что же получается, неужели все проблемы лежат именно в ней? Похоже, что это так. Введем понятие мгновенной громкости по аналогии с мгновенной амплитудой звукового сигнала и понятие громкостной огибающей по аналогии с амплитудой огибающей. Посмотрим, можно ли с помощью громкостной огибающей выразить признаки звучания, предложенные в [1]. И мы, с первого взгляда, с удивлением увидим, что через это понятие можно выразить почти все:

  • По первому уровню восприятия:
    • 1. тональный баланс;
    • 2. разборчивость;
    • 3. детальность;
    • 4. характер звукоизвлечения;
    • 5. разделенность звуков;
    • 6. связность звуков;
    • 7. динамические контрасты;
    • 8. динамические оттенки;
  • По третьему уровню:
    • 1. энергичность;
    • 2. полнота передачи эмоций;
    • 3. точность передачи эмоций.

Четвертый уровень и тембр пока трогать не будем, т.к. прямой связи не обнаруживается. Но тем не менее, может существовать более сложная зависимость, и это предположение выглядит более правдоподобным, чем то, что такой зависимости быть не может.

Таким образом, через огибающую по громкости выражается большая часть признаков звучания. Значит, получение неискаженной громкостной огибающей в процессе восприятия музыкальных программ является необходимым условием. Сразу возникают вопросы. А с какой точностью необходимо воссоздавать громкостную огибающую? И как громкостная огибающая внутри головы соотносится с амплитудной огибающей звукового сигнала?

На эти вопросы никто не пытался ответить. Более того, эти вопросы никто и не пытался задать. На сегодняшний день известно лишь то, что во временном развитии амплитуда звукового сигнала и его субъективно воспринимаемая громкость друг другу не соответствуют. Не буду останавливаться на известных описаниях предмаскировки и послемаскировки. Отмечу лишь то, что такая же точность в медицине означает жив - мертв. Так как более точные закономерности не выявлены, временную маскировку не удается использовать в процессе сжатия звукового сигнала, что и неудивительно. Но не это главное. Главное то, что коли поставлена задача соотношения объективного и субъективного, то, не решив вопрос соответствия амплитудной и громкостной огибающих, нельзя двигаться дальше. (А, может быть, дальше двигаться уже и не понадобиться…)

Попытка связать аномальные явления с искажениями громкостной огибающей может вызвать у некоторых коллег определенные сомнения. Действительно, эта связь неочевидна. Принято считать, что в процессе записи музыкальной фонограммы достижение звукорежиссером музыкального баланса автоматически снимает проблему несоответствия огибающих. Однако, если вспомнить некоторые из "звуковых чудес", то картина вырисовывается совсем иная.

Некоторые из аномальных явлений встречаются настолько часто, что таковыми уже и не воспринимаются. А ведь они связаны с субъективным восприятием громкости напрямую. Взять, к примеру, общеизвестный факт разной громкости звучания усилителей. Некоторые специалисты даже применяют термин "ламповый ватт", и уже дали ему количественную оценку: примерно в 3 раза больше транзисторного. Речь здесь идет не об электрической мощности, которая измеряется в ваттах, а о субъективно воспринимаемой громкости при одной и той же отдаваемой мощности. Чуть более близким к аномальному считается тот факт, что динамика звучания получается разной у разных усилителей, даже если их характеристики одинаковы. Один усилитель будет играть вяло, другой в той же системе - резво. Третий будет звучать уныло, четвертый - напористо. И т.д. Попытки объяснения этого явления были. Чаще всего они связываются с фазовыми искажениями и энергоемкостью блока питания. Однако при более детальном рассмотрении оказывается, что эти объяснения ничего не объясняют. Но не будем здесь останавливаться, пойдем дальше.

Более прямые случаи потери громкости можно увидеть, если принять во внимание свидетельства людей, производящих записи с живых концертов. Суммируя их впечатления, можно нарисовать такую картину.

Допустим, играет хороший пианист в хорошем зале. Слушатель занял оптимальное место. Пианист в процессе исполнения сыграл последующие два такта в два раза громче, чем предыдущие. Так он выразил некоторую эмоциональную фразу. Слушатель в зале это воспринял именно так, как и хотел исполнитель, т.е. услышал эти два такта в два раза громче и получил соответствующее эмоциональное впечатление. Если измерить интенсивность звука, поставив рядом со слушателем микрофон, то измерения покажут соответствующее увеличение интенсивности. Если теперь записать этот концерт и воспроизвести его дома, то, поставив измерительный микрофон в комнате прослушивания, мы увидим такое же увеличение интенсивности. Однако громкость звучания этих двух тактов в два раза не увеличится! Дай Бог, на 20 %, а то и того меньше. При этом сохраняется различие в характере звукоизвлечения, который разный при разной силе нажатия на клавиши. Это обстоятельство в большинстве случаев мешает услышать реальное уменьшение соотношения громкостей. Однако, как только слушатель сделает попытку абстрагироваться от содержания фонограммы и попытаться оценить разность между самым тихим и самым громким звуком, он с удивлением обнаружит, что разница очень небольшая. Оказывается, что при всех внешних проявлениях громкого звучания, таких как изменение интонаций, характера звукоизвлечения и др., реального увеличения громкости не происходит. Система в этом случае становится похожа на подростка, который ночью в подъезде поет под гитару: припев надо бы спеть в два раза громче, чем запев, но тогда из подъезда погонят, и поэтому он не кричит, а только имитирует крик. А стоящие рядом друзья и подруги его понимают…

К сожалению, так воспроизводят музыку почти все системы, за редким исключением. Куда девается реальная громкость, пока неизвестно. Очевидно только то, что разное восприятие громкости связано с особенностями работы слухового аппарата. Поэтому ничего и не остается, как разобраться с вопросом, как слух формирует ощущение громкости в динамическом режиме, найти пороги восприятия по громкостной огибающей и связать их с физическими параметрами звукового сигнала. Так как эта область ранее не изучалась, надо иметь в виду, что результаты могут получиться любые, даже самые неожиданные.

Часть II. Обоснование

Раз уж так или иначе придется разбираться с тем, как соответствуют друг другу амплитудная и громкостная огибающие, надо прежде всего посмотреть на результаты тех опытов, которые уже давно проведены, многократно проверены и перепроверены и являются достоверными. Может быть, глядя на эти результаты по новому, можно что-то обнаружить и в них. Прежде всего, надо рассмотреть выявленные свойства слуха при восприятии импульсов, так как именно при этом несоответствие огибающих проявляется в наиболее видимой форме.

Напомню, как проводились опыты по восприятию громкости импульсов. Испытуемому предлагалось оценить громкость импульсов путем сравнения с равногромким стационарным сигналом. В качестве сигнала использовались синусоидальный тон или белый шум. Время импульсов менялось, начиная от 500 мс в сторону уменьшения. При длительности импульсов 500 мс их громкость не отличалась от громкости непрерывного сигнала. Потом, при уменьшении длительности импульсов, начиная с некоторой их длины, громкость импульсов начинала казаться меньшей, чем громкость непрерывного сигнала. В этом случае испытуемый увеличивал амплитуду импульсов до тех пор, пока равенство громкостей не восстанавливалось. Чем короче были импульсы, тем меньше была их громкость и, соответственно, тем больше испытуемый должен был увеличивать амплитуду этих импульсов для достижения одинаковой громкости.

Результаты этих опытов показаны на рис. 2. Это зависимость разности уровней тонального импульса 1 кгц и равногромкого стационарного тона от длительности импульсов [2]. Мы видим, что при длительности меньше 100 мс испытательный импульс кажется менее громким, чем непрерывный сигнал, поэтому, чтобы их громкости сравнялись, уровень первого надо увеличивать. При сокращении длительности импульсов в 10 раз их уровень должен быть увеличен на 10 дб. Упрощенная зависимость показана на рисунке штриховой линией, имеющей крутизну спада 10 дб на каждое удесятерение длительности. Длительность 100 мс называется граничной длительностью ощущения громкости. Зависимость одинакова при разных частотах сигнала и сохраняется также для шумового сигнала. Не зависит она и от начального уровня.

Итак, мы видим, что при длительностях меньше граничной, импульсы оказываются равногромкими в том случае, когда равны произведения интенсивности J и длительности t. (т.к. уровень интенсивности LJ = 10 lg(J/Jo), в отличае от уровня звукового давления, который равен Lp = 20 lg(P/Po)).

Произведение J*t - это удельная энергия. Получается, что громкость импульсов до 100 мс зависит от энергии этих импульсов. Если же длительность сигнала больше 100 мс, то связь громкости со временем теряется. Громкость сигнала в этом случае зависит только от его интенсивности. Так и принято считать.


Все свойства слуха на стационарных сигналах измерены в координатах интенсивности или давления (например, кривые равной громкости). Но это совсем не значит, что в стационарном режиме ухо реагирует именно на интенсивность или давление! Ведь в стационарном режиме координата "время" не присутствует. Интенсивность при этом может быть выражена как энергия, приходящаяся на 1 м2 в течение часа, разделенная на 3600. Или как энергия, в течение 0,1 с разделенная на 0,1. То есть не ясно, как же именно, под воздействием каких причин ухо получает ощущение определенной громкости этого стационарного сигнала. Нам же для решения поставленной задачи необходимо в этом вопросе разобраться более подробно.

Представим рис. 2 в несколько ином виде. Попробуем изобразить, как будет выглядеть огибающая по громкости во времени при включении в момент времени t=0 стационарного тона определенной интенсивности. Используя упрощенную зависимость из Рис. 2 (штриховая линия), получаем упрощенную огибающую громкости (Рис. 3). Надо отметить, что именно такая огибающая получается не при всех условиях, поэтому мы должны ее принимать такой только в первом приближении. Потом, после всех выводов, мы вернемся к этому моменту и посмотрим, повлияло ли такое упрощение на конечный результат. Еще один момент: начальный участок кривой не определен из-за того, что в момент начала сигнала ухо воспринимает что-то типа щелчка, и привязывать громкость этого щелчка к громкости совсем другого звука считается неправильным.

Но посмотрим на Рис. 3. Мы видим, что упрощенная огибающая состоит из двух прямых линий. Заметим, что обе координаты - это логарифмы соответственно интенсивности и времени. А что будет, если перейти к линейным координатам? На Рис 4 такой переход показан. Время t здесь линейное, а вместо уровня громкости Lg должен быть параметр, уровень которого выражается как 10 lg (X/Xo).

Такому условию удовлетворяет интенсивность, но ее мы принять не можем, т.к. она относится к параметрам звуковой волны. Мы же должны вписать сюда характеристику громкости, то есть субъективного ощущения. Удобнее всего в данном случае ввести новую характеристику, назовем ее раздражающей силой. Будем считать ее переходной от объективных параметров звуковой волны к субъективному восприятию громкости. Уровень громкости в этом случае будет пропорционален логарифму раздражающей силы, как и принято считать [3].


На Рис.4 начальный участок проинтерполирован до t = 0. Мы видим, что величина раздражающей силы на участке от 0 до 100 мс линейно возрастает и может быть выражена как

(
Т.к. пока неясно, можно ли вообще в данном случае брать отрезок времени меньше периода частоты сигнала, дифференциальную форму выражения применять не будем.).

Таким образом, на отрезке от 0 до 100 мс мы видим накопительную систему формирования раздражающей силы. Для синусоидального сигнала 1000 Гц накопление происходит простым суммированием единичных сил каждого периода колебаний:

Каждый очередной период колебаний привносит свою часть раздражающей силы F1. При этом действие предыдущих периодов сохраняется, и очередной период делает величину раздражающей силы больше на величину F1. В момент времени 100 мс

С этого момента накопление раздражающей силы прекращается и ее величина перестает зависеть от времени. Но по какой причине?
Причины может быть три.

Первый вариант: 101-й период колебаний, в отличие от всех предыдущих, к общей раздражающей силе ничего не добавил. Так же ничего не добавили и последующие периоды. Ощущение громкости существует по той причине, что в течение всего времени звучания действует суммарная сила первых 100 периодов.
Этот вариант мы должны сразу отбросить. Действительно, если бы это было так, то при прекращении звучания сигнала мы бы продолжали его слышать всю оставшуюся жизнь. Остается рассмотреть еще два варианта.

Второй вариант: В момент времени 101 мс ухо переходит на совершенно другой механизм определения громкости, независимый от времени звучания сигнала.

Третий вариант: В момент времени 101 мс 101-й период так же, как и все предшествующие периоды, добавил в общую силу свою F1. При этом исчезла накопленная ранее составляющая общей силы от 1-го периода в момент времени 1 мс. Суммарная сила осталась без изменений.

Чтобы сделать выбор из этих двух вариантов, посмотрим, что будет в момент прекращения звучания сигнала. Если правильный второй вариант, то по окончании действия сигнала должно мгновенно прекратиться и ощущение его звучания. Если правильный третий вариант, то по окончании звучания сигнала ухо будет слышать его еще 100 мс, причем огибающая последних 100 мс будет обратной огибающей на отрезке от 0 до 100 мс, т.е. плавно спадать до F=0.

Но так как раз и происходит! Этот эффект называется слуховым впечатлением. Время его вообще-то отличается от 100 мс и зависит от времени звучания сигнала до его прекращения, но в нашем случае главное - это наличие такого эффекта. Поэтому мы должны принять третий вариант как единственно возможный.

Что же получилоcь? Получилось то, что в любой момент времени ухо слышит целиком весь отрезок сигала в 100 мс, предшествующий этому моменту. Величина раздражающей силы в любой момент времени t может быть выражена так (см. Рис. 4):

Время накопления tн = 100 мс является для уха постоянной величиной и не зависит от частоты и уровня сигнала. Не зависит оно также и от вида сигнала, то есть оно справедливо и для всех видов шумов. Граничная длительность ощущения громкости по сути является временем накопления раздражающей силы.

Таким образом, мы видим, что ухо всегда определяет громкость по энергии определенного отрезка сигнала, независимо от времени звучания самого сигнала и его содержания. В любой момент времени субъективно воспринимаемая громкость определяется величиной раздражающей силы, накопленной в течение последних 100 мс звучания. Накопительная система формирования раздражающей силы является одним из основных свойств слухового аппарата.

Для чего понадобились эти преобразования? Вышерассмотренные процессы касались условий, когда уровень звукового сигнала превышал пороги слышимости или маскировки. Если мы таким же способом рассмотрим те же процессы на пороге маскировки, то получится интересная картина.


На Рис. 5 и Рис. 6 приведены пороги слышимости при маскировке соответственно тональных и шумовых импульсов равномерно маскирующим шумом [2]. При уменьшении длительности импульсов испытуемый устанавливал уровень звукового сигнала такой, чтобы тот минимально прослушивался на фоне маскирующего сигнала.

Будем считать, что воздействие основного сигнала на физиологические элементы уха не зависит от того, ощущает ли испытуемый этот сигнал на фоне маскирующего, или нет. Это соответствует законам физики, т.к. речь идет о физическом воздействии, максимум - о биологическом, но никак не психофизиологическом. Зависимости, показанные на Рис. 5 и Рис. 6, преобразуем аналогично тому, как из Рис. 2 получили Рис. 4. В результате мы получим зависимости накопления раздражающей силы ниже порога маскировки (Рис. 7). Здесь линия 1 - для тонального сигнала, а линия 2 - для белого шума. Сигнал будет слышен, если накопленная величина раздражающей силы превысит величину накопленной же силы маскирующего шума, показанной на Рис. 7 линией 3.

Из графиков видно, что ниже порога маскировки время накопления разное: для синусоидального тона tн = 200 мс, а для белого шума tн = 50 мс. Кроме того, угол наклона для шума меньше, чем для тона. Если мы рассмотрим этот момент более подробно, у нас появляется шанс получить ответы на поставленные вопросы.

Итак, с чем может быть связана разница в tн? Сначала установим, в чем главное отличие синуса от шума. Так как координатой tн является время, то в первую очередь отметим отличия во временной области. В этой области синусоидальный сигнал можно считать абсолютно организованным, тогда как шум во времени является сигналом абсолютно неорганизованным. Из Рис. 7 мы видим, что для сигнала, имеющего абсолютно организованную временную структуру, время накопления составляет 200 мс, а для сигнала с абсолютно неорганизованной временной структурой - только 50 мс. Сразу бросается в глаза, что весь интервал от 0 до 200 мс можно разбить на равные отрезки по 50 мс. Тогда мы видим, что в первые 50 мс оба сигнала ведут себя почти одинаково, разница только в скорости накопления. Но в момент времени 50 мс накопление случайного сигнала прекращается, а организованного продолжается. Если рассматривать каждый из отрезков I-IV отдельно, то мы видим, что у организованного сигнала накопление происходит трехкратным сложением суммарных сил каждого их 4-х отрезков, а у случайного сигнала - только первого отрезка. Чем это может быть вызвано?

Рассмотрим, в чем состоит отличие соседних отрезков в случае синусоидального сигнала и в случае белого шума. Очевидно, что в первом случае отрезки не отличаются между собой ничем. Они имеют совершенно одинаковую временную структуру. Во втором же случае временная структура отрезков будет разной, что так же очевидно. Поэтому можно предположить, что условием сложения для сил отрезков является одинаковость их временных структур. При этом периодичность временной структуры не является обязательным условием.

Далее попытаемся выяснить, какую временную структуру ухо воспринимает как упорядоченную. Если временная упорядоченность абсолютная, то все ясно, так же как и при абсолютной неупорядоченности. Но это два крайних случая, а все восприятие лежит между ними. Первый же вывод, который мы сделаем, будет такой: для первого отрезка никакая упорядоченность вообще значения не имеет! Накопление происходит и при случайном сигнале. То обстоятельство, что линия имеет другой наклон, сути дела не меняет. Гораздо важнее вывод о том, что суммирование сил отрезков I-IV происходит тогда, когда их временные структуры одинаковы. Таким образом, упорядоченностью для уха является степень схожести временных структур смежных отрезков по 50 мс.

Этот очень важный вывод сразу приближает нас к конечным результатам. Чтобы сделать последний шаг, попробуем ответить на следующие вопросы:

  • 1. Что будет, если в случае случайного сигнала этот сигнал будет случаен только в пределах отрезка 50 мс, но следующие отрезки по 50мс будут точными копиями первого отрезка, т.е. когерентными?
  • 2. Что будет, если в случае синуса отрезки II-IV будут отличаться от отрезка I, например, по фазе, или еще как-нибудь?
  • 3. Каков порог ощутимости, т.е. каково минимальное отличие временных структур этих отрезков, при котором ухо перестает воспринимать их как абсолютно одинаковые, что приводит к уменьшению времени накопления и, как следствие, к уменьшению результирующей раздражающей силы?

Отвечая на первый вопрос можно предположить, что в этом случае произойдет также четырехкратное увеличение времени накопления. Косвенно это подтверждает известный эффект увеличения громкости речевого сигнала при наличии задержанного сигнала. Увеличение громкости в зависимости от времени задержки показано на Рис. 8 [3]. Максимум увеличения громкости (до 5 фон) наблюдается при задержке как раз 50 мс.

По второму вопросу можно высказать предположение о том, что могут существовать условия, когда суммирование времени накопления по отрезкам нарушается и для синуса. В самом деле, достаточно вспомнить опыт общения с транзисторными усилителями эпохи застоя. Регулятор тембра по высоким частотам был обычно вывернут до упора. Если же его не использовать, то ощущалась явная нехватка высоких частот. Вернее сказать, высокие вообще не прослушивались до тех пор, пока их не добавить по уровню (на плохом усилителе - на 10 - 12 дб). На АЧХ линейной части усилителя при этом завала на высоких частотах не наблюдалось.

Ответ на третий вопрос может быть получен только экспериментально и оказаться самым неожиданным. Если ухо определяет и сравнивает временную структуру отрезков сигнала по принципам последовательной корреляции [4], то ощутимой может быть разница временных структур, сопоставимая со временем, за которое звуковая волна в улитке проходит расстояние между соседними клетками. А это доли микросекунды.

Теперь можно показать на примере, к каким последствиям может привести изменение времени накопления. На Рис. 9 показан процесс восприятия синуса и условно когерентного (по 50 мс) сигнала на фоне равномерно маскирующего шума. В идеальном случае мы видим, что наблюдатель слышит оба этих сигнала, причем синус начинает ощущаться в момент времени 120 мс, а условно когерентный сигнал - в момент времени 180 мс после начала звучания. Теперь предположим, что и для синуса, и для когерентного сигнала условия соответствия временных структур отрезков по какой-либо причине нарушены. Тогда оба они прекратят накопление в момент времени 50 мс, и наблюдатель их никогда не услышит. Чтобы восстановить слышимость, к примеру, синуса, можно увеличить его уровень, например, в 4 раза (на 12 дб), что показано на Рис. 9 линией 4. Тогда он будет услышан, но уже в момент времени 30 мс, т.е. на 90 мс раньше, чем надо. Как раз такой эффект дает увеличение высоких частот регулятором тембра.

Подытоживая вышесказанное, наш главный вывод будет таким: мгновенная громкость зависит не только от интенсивности и спектра, но еще и от временной структуры сигнала, ее определенной упорядоченности в предшествующие 200 мс. Оказывается, что вблизи порога маскировки обеспечить соответствие амплитудной и громкостной огибающих не так-то просто. Если мы имеем систему, которая обеспечивает форму амплитудной огибающей с очень высокой точностью, то это еще не значит, что она не будет искажать громкостную огибающую. Искажения громкостной огибающей могут быть вызваны совершенно ничтожными, но реально возникающими в системе искажениями особого вида временной структуры сигнала (При этом обычные искажения, например, Кг, на громкостную огибающую могут не влять вообще) [4]. По своим последствиям эти искажения эквиваленты изменению амплитудной огибающей (до 9 дб). С этим, безусловно, мириться нельзя. И правы те, кто, пытаясь добиться музыкальности звучания, меняет детали, подбирает провода, определяет их направление, ставит корректор на шипы и т.д. Они действительно при этом восстанавливают эмоциональное содержание музыки! А суммарный результат при этих операциях зависит еще и от личных качеств разработчика ,т.к. восстановление громкостной огибающей он оценивает пока только на слух. Но, будем надеяться, это будет продолжаться недолго.

Теперь надо вспомнить, что в процессе наших рассуждений мы делали упрощения. Но, так как эти упрощения не затрагивали временную область, то они и не повлияли на конечный результат. На самом деле линии на рисунках не будут идеально прямыми, но временные интервалы при этом не изменятся. Значит, не изменятся и наши выводы.

Отметим еще одну небольшую деталь. Если кому-то деление сигнала на отрезки по 50 мс покажется необоснованным и надуманным, то следует обратить внимание на то, что с этой длительностью связаны и другие непонятные пока явления. Во первых, 50 мс - это длина волны 20 Гц, т.е. самой нижней частоты, которую ухо слышит. А вот 19 Гц ухо уже не слышит, причем на любом уровне сигнала! Никакой аналоговый фильтр такого результата дать не может. Во вторых, запаздывающая копия реального сигнала начинает ощущаться как эхо тоже при задержке более 50 мс, т.е. при меньшей задержке она не ощущается в виде отдельного объекта. Ну и в третьих то, что рассмотренные в данной статье экспериментальные результаты дают цифры, кратные 50. Все это является серьезным основанием для того, чтобы предположить, что ухо анализирует сигнал отрезками по 50 мс.

То, что рассмотрение свойств слуха на пороге маскировки поставлено во главу угла, тоже может кому-то показаться сомнительным. Однако, если мы посмотрим на все реальные музыкальные программы, то окажется, что музыка существует только в этих условиях. Сомневающихся прошу самих рассмотреть, как могут взаимодействовать сигналы нескольких источников в присутствии реверберационных повторов каждого из них и всех вместе.

Итак, что же дальше? А дальше необходимо экспериментально подтвердить (либо опровергнуть) наши предположения. Если мы хотим получить исходные данные для инженерных расчетов, то ухо должно быть измерено предельно конкретно. Поэтому вряд ли целесообразно делать сейчас какие-либо предположения по поводу итоговых величин.
Повторим лишь еще раз, что необходимо узнать:

  • 1. Каким образом формируется время накопления на пороге маскировки.
  • 2. Какие условия обеспечивают правильный процесс накопления.
  • 3. Каков порог ощутимости изменения этого процесса и в каких физических параметрах его можно выразить.

Фактически это будет означать условия соответствия амплитудной и громкостной огибающих на пороге маскировки, что мы и хотим получить. И только после этого в работу могут включаться радиоинженеры. Задача записи и воспроизведения музыки без потерь будет решена.

Часть III. Результаты

Эта часть еще не написана. Лично у меня нет доступа к необходимому оборудованию и навыков проведения психофизических опытов. Специалистов, заинтересованных этой темой, найти пока не удалось. Поэтому обращаюсь к коллегам: если кто-нибудь может реально организовать проведение экспериментов и действительно заинтересован темой воспроизведения музыки, то предлагаю эту работу совместно завершить.

С. Поляков
30.12.2002г

Литература:
1. А. Лихницкий "Качество звучания" "ПиК", С.-Петербург, 1998
2. Э. Цвикер, Р. Фельдкеллер. "Ухо как приемник информации." М., "Связь", 1971
3. "Справочник по акустике" под редакцией М. Сапожкова. М., "Связь", 1979
4. С. Поляков "Может ли быть построено недостающее звено теории слухового восприятия" "Мир AUDIO", М., 2002

Rambler's Top100
TopList
Мир DVD
© "Мир Audio", 2002г. Все материалы являются собственностью редакции. Перепечатка или воспроизведение их любым способом полностью или по частям допускается только с письменного разрешения редакции.