![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Электронное |
|||||||
![]() |
Громкость. Новый подход Часть I. Предпосылки Если задать вопрос, какие проблемы сейчас стоят перед электроакустикой, то один из возможных ответов на него будет таким: запись и дальнейшее воспроизведение музыки без потерь не получаются. В последние годы выяснилось, что применяемый издавна термин "качество звучания" применительно к музыкальным фонограммам не содержит ничего конкретного. Мало того, что не видна связь между качеством звучания и объективными параметрами звукового сигнала, так еще и определить набор субъективных характеристик, ответственных за восприятие музыки, оказалось весьма непросто. В этом направлении трудно переоценить работу А.М. Лихницкого "Качество звучания", в которой он сформулировал и систематизировал эти самые субъективные характеристики. Следующий шаг, который теперь необходимо сделать, это связать качество звучания в его новом понимании с объективными параметрами. Сразу надо отметить, что замеченные звуковые парадоксы никак не вписываются в существующую теорию слухового восприятия. Поэтому они и называются аномалиями. Значит, прежде всего надо разобраться в том, какими же еще свойствами обладает механизм слухового восприятия. По моему мнению, трудность решения этой задачи преувеличена. Трудно судить о причине топтания на месте, может быть, у специалистов не хватает стимулов… Но в этом случае, обращаясь к этим специалистам, я говорю: тогда уж не удивляйтесь, что за решение этой задачи берутся люди, в общем-то посторонние. Нам некогда ждать. Но вернемся к музыкальным программам. Ведь именно их одних касаются все звуковые чудеса! Воспроизведение речи в настоящее время проблем не вызывает. Воспроизведение звукоряда к фильмам успешно развивается. Так почему же такие сложности с музыкой? Лично меня устраивает ответ на этот вопрос А.М. Лихницкого
[1]. Коротко этот ответ выглядит так: Чтобы хоть как-то разобраться в этом вопросе, давайте сначала посмотрим, можно ли в процессе решения нашей задачи сузить поле поисков. Для этого воспользуемся тем, что музыку можно представить как непрерывно протекающий во времени процесс в координатах высота - громкость - время (Рис. 1). Характеристиками звукового сигнала, если он является носителем музыки, являются в этом случае частота - интенсивность - время. Часто эти представления отождествляются между собой, хотя первое выражение относится к субъективному восприятию, а второе - к физическим параметрам. Но мы пока не будем с этим спешить, сначала посмотрим, насколько это допустимо.
Мы не будем на этом сейчас заострять внимание. Пока нам достаточно того, что в координатах громкость - время находится большая часть эмоционального содержания музыки. Но вернемся на время к интеллектуальному содержанию. Давайте попробуем вспомнить, были ли когда - либо у кого - либо проблемы с определением высоты звука? Лично я такого вспомнить не могу. Интеллектуальное содержание под силу воспроизвести даже карманному радиоприемнику. Ни один аппарат не воспроизвел вместо одной ноты другую, вместо звука - паузу. Со стороны психоакустики тоже установлено однозначное соответствие субъективно воспринимаемой высоты звука в мелах и частоты звукового сигнала в герцах. Поэтому предлагаю плоскость высота - время из дальнейшего рассмотрения исключить за ненадобностью. Остановимся подробнее на эмоциональной плоскости. Что же получается, неужели все проблемы лежат именно в ней? Похоже, что это так. Введем понятие мгновенной громкости по аналогии с мгновенной амплитудой звукового сигнала и понятие громкостной огибающей по аналогии с амплитудой огибающей. Посмотрим, можно ли с помощью громкостной огибающей выразить признаки звучания, предложенные в [1]. И мы, с первого взгляда, с удивлением увидим, что через это понятие можно выразить почти все:
Четвертый уровень и тембр пока трогать не будем, т.к. прямой связи не обнаруживается. Но тем не менее, может существовать более сложная зависимость, и это предположение выглядит более правдоподобным, чем то, что такой зависимости быть не может. Таким образом, через огибающую по громкости выражается большая часть признаков звучания. Значит, получение неискаженной громкостной огибающей в процессе восприятия музыкальных программ является необходимым условием. Сразу возникают вопросы. А с какой точностью необходимо воссоздавать громкостную огибающую? И как громкостная огибающая внутри головы соотносится с амплитудной огибающей звукового сигнала? На эти вопросы никто не пытался ответить. Более того, эти вопросы никто и не пытался задать. На сегодняшний день известно лишь то, что во временном развитии амплитуда звукового сигнала и его субъективно воспринимаемая громкость друг другу не соответствуют. Не буду останавливаться на известных описаниях предмаскировки и послемаскировки. Отмечу лишь то, что такая же точность в медицине означает жив - мертв. Так как более точные закономерности не выявлены, временную маскировку не удается использовать в процессе сжатия звукового сигнала, что и неудивительно. Но не это главное. Главное то, что коли поставлена задача соотношения объективного и субъективного, то, не решив вопрос соответствия амплитудной и громкостной огибающих, нельзя двигаться дальше. (А, может быть, дальше двигаться уже и не понадобиться…) Попытка связать аномальные явления с искажениями громкостной огибающей может вызвать у некоторых коллег определенные сомнения. Действительно, эта связь неочевидна. Принято считать, что в процессе записи музыкальной фонограммы достижение звукорежиссером музыкального баланса автоматически снимает проблему несоответствия огибающих. Однако, если вспомнить некоторые из "звуковых чудес", то картина вырисовывается совсем иная. Некоторые из аномальных явлений встречаются настолько часто, что таковыми уже и не воспринимаются. А ведь они связаны с субъективным восприятием громкости напрямую. Взять, к примеру, общеизвестный факт разной громкости звучания усилителей. Некоторые специалисты даже применяют термин "ламповый ватт", и уже дали ему количественную оценку: примерно в 3 раза больше транзисторного. Речь здесь идет не об электрической мощности, которая измеряется в ваттах, а о субъективно воспринимаемой громкости при одной и той же отдаваемой мощности. Чуть более близким к аномальному считается тот факт, что динамика звучания получается разной у разных усилителей, даже если их характеристики одинаковы. Один усилитель будет играть вяло, другой в той же системе - резво. Третий будет звучать уныло, четвертый - напористо. И т.д. Попытки объяснения этого явления были. Чаще всего они связываются с фазовыми искажениями и энергоемкостью блока питания. Однако при более детальном рассмотрении оказывается, что эти объяснения ничего не объясняют. Но не будем здесь останавливаться, пойдем дальше. Более прямые случаи потери громкости можно увидеть, если принять во внимание свидетельства людей, производящих записи с живых концертов. Суммируя их впечатления, можно нарисовать такую картину. Допустим, играет хороший пианист в хорошем зале. Слушатель занял оптимальное место. Пианист в процессе исполнения сыграл последующие два такта в два раза громче, чем предыдущие. Так он выразил некоторую эмоциональную фразу. Слушатель в зале это воспринял именно так, как и хотел исполнитель, т.е. услышал эти два такта в два раза громче и получил соответствующее эмоциональное впечатление. Если измерить интенсивность звука, поставив рядом со слушателем микрофон, то измерения покажут соответствующее увеличение интенсивности. Если теперь записать этот концерт и воспроизвести его дома, то, поставив измерительный микрофон в комнате прослушивания, мы увидим такое же увеличение интенсивности. Однако громкость звучания этих двух тактов в два раза не увеличится! Дай Бог, на 20 %, а то и того меньше. При этом сохраняется различие в характере звукоизвлечения, который разный при разной силе нажатия на клавиши. Это обстоятельство в большинстве случаев мешает услышать реальное уменьшение соотношения громкостей. Однако, как только слушатель сделает попытку абстрагироваться от содержания фонограммы и попытаться оценить разность между самым тихим и самым громким звуком, он с удивлением обнаружит, что разница очень небольшая. Оказывается, что при всех внешних проявлениях громкого звучания, таких как изменение интонаций, характера звукоизвлечения и др., реального увеличения громкости не происходит. Система в этом случае становится похожа на подростка, который ночью в подъезде поет под гитару: припев надо бы спеть в два раза громче, чем запев, но тогда из подъезда погонят, и поэтому он не кричит, а только имитирует крик. А стоящие рядом друзья и подруги его понимают… К сожалению, так воспроизводят музыку почти все системы, за редким исключением. Куда девается реальная громкость, пока неизвестно. Очевидно только то, что разное восприятие громкости связано с особенностями работы слухового аппарата. Поэтому ничего и не остается, как разобраться с вопросом, как слух формирует ощущение громкости в динамическом режиме, найти пороги восприятия по громкостной огибающей и связать их с физическими параметрами звукового сигнала. Так как эта область ранее не изучалась, надо иметь в виду, что результаты могут получиться любые, даже самые неожиданные. Часть II. Обоснование Раз уж так или иначе придется разбираться с тем, как соответствуют друг другу амплитудная и громкостная огибающие, надо прежде всего посмотреть на результаты тех опытов, которые уже давно проведены, многократно проверены и перепроверены и являются достоверными. Может быть, глядя на эти результаты по новому, можно что-то обнаружить и в них. Прежде всего, надо рассмотреть выявленные свойства слуха при восприятии импульсов, так как именно при этом несоответствие огибающих проявляется в наиболее видимой форме. Напомню, как проводились опыты по восприятию громкости импульсов. Испытуемому предлагалось оценить громкость импульсов путем сравнения с равногромким стационарным сигналом. В качестве сигнала использовались синусоидальный тон или белый шум. Время импульсов менялось, начиная от 500 мс в сторону уменьшения. При длительности импульсов 500 мс их громкость не отличалась от громкости непрерывного сигнала. Потом, при уменьшении длительности импульсов, начиная с некоторой их длины, громкость импульсов начинала казаться меньшей, чем громкость непрерывного сигнала. В этом случае испытуемый увеличивал амплитуду импульсов до тех пор, пока равенство громкостей не восстанавливалось. Чем короче были импульсы, тем меньше была их громкость и, соответственно, тем больше испытуемый должен был увеличивать амплитуду этих импульсов для достижения одинаковой громкости. Результаты этих опытов показаны на рис. 2. Это зависимость разности уровней тонального импульса 1 кгц и равногромкого стационарного тона от длительности импульсов [2]. Мы видим, что при длительности меньше 100 мс испытательный импульс кажется менее громким, чем непрерывный сигнал, поэтому, чтобы их громкости сравнялись, уровень первого надо увеличивать. При сокращении длительности импульсов в 10 раз их уровень должен быть увеличен на 10 дб. Упрощенная зависимость показана на рисунке штриховой линией, имеющей крутизну спада 10 дб на каждое удесятерение длительности. Длительность 100 мс называется граничной длительностью ощущения громкости. Зависимость одинакова при разных частотах сигнала и сохраняется также для шумового сигнала. Не зависит она и от начального уровня.
Все свойства слуха на стационарных сигналах измерены в координатах интенсивности или давления (например, кривые равной громкости). Но это совсем не значит, что в стационарном режиме ухо реагирует именно на интенсивность или давление! Ведь в стационарном режиме координата "время" не присутствует. Интенсивность при этом может быть выражена как энергия, приходящаяся на 1 м2 в течение часа, разделенная на 3600. Или как энергия, в течение 0,1 с разделенная на 0,1. То есть не ясно, как же именно, под воздействием каких причин ухо получает ощущение определенной громкости этого стационарного сигнала. Нам же для решения поставленной задачи необходимо в этом вопросе разобраться более подробно.
Но посмотрим на Рис. 3. Мы видим, что упрощенная огибающая состоит из двух прямых линий. Заметим, что обе координаты - это логарифмы соответственно интенсивности и времени. А что будет, если перейти к линейным координатам? На Рис 4 такой переход показан. Время t здесь линейное, а вместо уровня громкости Lg должен быть параметр, уровень которого выражается как 10 lg (X/Xo).
На Рис.4 начальный участок проинтерполирован до t =
0. Мы видим, что величина раздражающей силы на участке от 0 до 100 мс
линейно возрастает и может быть выражена как Таким образом, на отрезке от 0 до 100 мс мы видим накопительную
систему формирования раздражающей силы. Для синусоидального сигнала
1000 Гц накопление происходит простым суммированием единичных сил каждого
периода колебаний: С этого момента накопление раздражающей силы прекращается
и ее величина перестает зависеть от времени. Но по какой причине?
Чтобы сделать выбор из этих двух вариантов, посмотрим, что будет в момент прекращения звучания сигнала. Если правильный второй вариант, то по окончании действия сигнала должно мгновенно прекратиться и ощущение его звучания. Если правильный третий вариант, то по окончании звучания сигнала ухо будет слышать его еще 100 мс, причем огибающая последних 100 мс будет обратной огибающей на отрезке от 0 до 100 мс, т.е. плавно спадать до F=0. Но так как раз и происходит! Этот эффект называется слуховым впечатлением. Время его вообще-то отличается от 100 мс и зависит от времени звучания сигнала до его прекращения, но в нашем случае главное - это наличие такого эффекта. Поэтому мы должны принять третий вариант как единственно возможный. Что же получилоcь? Получилось то, что в любой момент
времени ухо слышит целиком весь отрезок сигала в 100 мс, предшествующий
этому моменту. Величина раздражающей силы в любой момент времени t может
быть выражена так (см. Рис. 4): Время накопления tн = 100 мс является для уха постоянной величиной и не зависит от частоты и уровня сигнала. Не зависит оно также и от вида сигнала, то есть оно справедливо и для всех видов шумов. Граничная длительность ощущения громкости по сути является временем накопления раздражающей силы. Таким образом, мы видим, что ухо всегда определяет громкость по энергии определенного отрезка сигнала, независимо от времени звучания самого сигнала и его содержания. В любой момент времени субъективно воспринимаемая громкость определяется величиной раздражающей силы, накопленной в течение последних 100 мс звучания. Накопительная система формирования раздражающей силы является одним из основных свойств слухового аппарата. Для чего понадобились эти преобразования? Вышерассмотренные процессы касались условий, когда уровень звукового сигнала превышал пороги слышимости или маскировки. Если мы таким же способом рассмотрим те же процессы на пороге маскировки, то получится интересная картина.
На Рис. 5 и Рис. 6 приведены пороги слышимости при маскировке соответственно тональных и шумовых импульсов равномерно маскирующим шумом [2]. При уменьшении длительности импульсов испытуемый устанавливал уровень звукового сигнала такой, чтобы тот минимально прослушивался на фоне маскирующего сигнала.
Из графиков видно, что ниже порога маскировки время накопления разное: для синусоидального тона tн = 200 мс, а для белого шума tн = 50 мс. Кроме того, угол наклона для шума меньше, чем для тона. Если мы рассмотрим этот момент более подробно, у нас появляется шанс получить ответы на поставленные вопросы. Итак, с чем может быть связана разница в tн? Сначала установим, в чем главное отличие синуса от шума. Так как координатой tн является время, то в первую очередь отметим отличия во временной области. В этой области синусоидальный сигнал можно считать абсолютно организованным, тогда как шум во времени является сигналом абсолютно неорганизованным. Из Рис. 7 мы видим, что для сигнала, имеющего абсолютно организованную временную структуру, время накопления составляет 200 мс, а для сигнала с абсолютно неорганизованной временной структурой - только 50 мс. Сразу бросается в глаза, что весь интервал от 0 до 200 мс можно разбить на равные отрезки по 50 мс. Тогда мы видим, что в первые 50 мс оба сигнала ведут себя почти одинаково, разница только в скорости накопления. Но в момент времени 50 мс накопление случайного сигнала прекращается, а организованного продолжается. Если рассматривать каждый из отрезков I-IV отдельно, то мы видим, что у организованного сигнала накопление происходит трехкратным сложением суммарных сил каждого их 4-х отрезков, а у случайного сигнала - только первого отрезка. Чем это может быть вызвано? Рассмотрим, в чем состоит отличие соседних отрезков в случае синусоидального сигнала и в случае белого шума. Очевидно, что в первом случае отрезки не отличаются между собой ничем. Они имеют совершенно одинаковую временную структуру. Во втором же случае временная структура отрезков будет разной, что так же очевидно. Поэтому можно предположить, что условием сложения для сил отрезков является одинаковость их временных структур. При этом периодичность временной структуры не является обязательным условием. Далее попытаемся выяснить, какую временную структуру ухо воспринимает как упорядоченную. Если временная упорядоченность абсолютная, то все ясно, так же как и при абсолютной неупорядоченности. Но это два крайних случая, а все восприятие лежит между ними. Первый же вывод, который мы сделаем, будет такой: для первого отрезка никакая упорядоченность вообще значения не имеет! Накопление происходит и при случайном сигнале. То обстоятельство, что линия имеет другой наклон, сути дела не меняет. Гораздо важнее вывод о том, что суммирование сил отрезков I-IV происходит тогда, когда их временные структуры одинаковы. Таким образом, упорядоченностью для уха является степень схожести временных структур смежных отрезков по 50 мс. Этот очень важный вывод сразу приближает нас к конечным результатам. Чтобы сделать последний шаг, попробуем ответить на следующие вопросы:
Отвечая на первый вопрос можно предположить, что в этом случае произойдет также четырехкратное увеличение времени накопления. Косвенно это подтверждает известный эффект увеличения громкости речевого сигнала при наличии задержанного сигнала. Увеличение громкости в зависимости от времени задержки показано на Рис. 8 [3]. Максимум увеличения громкости (до 5 фон) наблюдается при задержке как раз 50 мс.
Ответ на третий вопрос может быть получен только экспериментально и оказаться самым неожиданным. Если ухо определяет и сравнивает временную структуру отрезков сигнала по принципам последовательной корреляции [4], то ощутимой может быть разница временных структур, сопоставимая со временем, за которое звуковая волна в улитке проходит расстояние между соседними клетками. А это доли микросекунды.
Подытоживая вышесказанное, наш главный вывод будет таким: мгновенная громкость зависит не только от интенсивности и спектра, но еще и от временной структуры сигнала, ее определенной упорядоченности в предшествующие 200 мс. Оказывается, что вблизи порога маскировки обеспечить соответствие амплитудной и громкостной огибающих не так-то просто. Если мы имеем систему, которая обеспечивает форму амплитудной огибающей с очень высокой точностью, то это еще не значит, что она не будет искажать громкостную огибающую. Искажения громкостной огибающей могут быть вызваны совершенно ничтожными, но реально возникающими в системе искажениями особого вида временной структуры сигнала (При этом обычные искажения, например, Кг, на громкостную огибающую могут не влять вообще) [4]. По своим последствиям эти искажения эквиваленты изменению амплитудной огибающей (до 9 дб). С этим, безусловно, мириться нельзя. И правы те, кто, пытаясь добиться музыкальности звучания, меняет детали, подбирает провода, определяет их направление, ставит корректор на шипы и т.д. Они действительно при этом восстанавливают эмоциональное содержание музыки! А суммарный результат при этих операциях зависит еще и от личных качеств разработчика ,т.к. восстановление громкостной огибающей он оценивает пока только на слух. Но, будем надеяться, это будет продолжаться недолго. Теперь надо вспомнить, что в процессе наших рассуждений мы делали упрощения. Но, так как эти упрощения не затрагивали временную область, то они и не повлияли на конечный результат. На самом деле линии на рисунках не будут идеально прямыми, но временные интервалы при этом не изменятся. Значит, не изменятся и наши выводы. Отметим еще одну небольшую деталь. Если кому-то деление сигнала на отрезки по 50 мс покажется необоснованным и надуманным, то следует обратить внимание на то, что с этой длительностью связаны и другие непонятные пока явления. Во первых, 50 мс - это длина волны 20 Гц, т.е. самой нижней частоты, которую ухо слышит. А вот 19 Гц ухо уже не слышит, причем на любом уровне сигнала! Никакой аналоговый фильтр такого результата дать не может. Во вторых, запаздывающая копия реального сигнала начинает ощущаться как эхо тоже при задержке более 50 мс, т.е. при меньшей задержке она не ощущается в виде отдельного объекта. Ну и в третьих то, что рассмотренные в данной статье экспериментальные результаты дают цифры, кратные 50. Все это является серьезным основанием для того, чтобы предположить, что ухо анализирует сигнал отрезками по 50 мс. То, что рассмотрение свойств слуха на пороге маскировки поставлено во главу угла, тоже может кому-то показаться сомнительным. Однако, если мы посмотрим на все реальные музыкальные программы, то окажется, что музыка существует только в этих условиях. Сомневающихся прошу самих рассмотреть, как могут взаимодействовать сигналы нескольких источников в присутствии реверберационных повторов каждого из них и всех вместе. Итак, что же дальше? А дальше необходимо экспериментально
подтвердить (либо опровергнуть) наши предположения. Если мы хотим получить
исходные данные для инженерных расчетов, то ухо должно быть измерено
предельно конкретно. Поэтому вряд ли целесообразно делать сейчас какие-либо
предположения по поводу итоговых величин.
Фактически это будет означать условия соответствия амплитудной и громкостной огибающих на пороге маскировки, что мы и хотим получить. И только после этого в работу могут включаться радиоинженеры. Задача записи и воспроизведения музыки без потерь будет решена. Часть III. Результаты Эта часть еще не написана. Лично у меня нет доступа к необходимому оборудованию и навыков проведения психофизических опытов. Специалистов, заинтересованных этой темой, найти пока не удалось. Поэтому обращаюсь к коллегам: если кто-нибудь может реально организовать проведение экспериментов и действительно заинтересован темой воспроизведения музыки, то предлагаю эту работу совместно завершить. С. Поляков Литература:
|
![]() ![]() |
© "Мир Audio", 2002г. Все материалы являются собственностью редакции. Перепечатка или воспроизведение их любым способом полностью или по частям допускается только с письменного разрешения редакции. | ![]() |