На главную страницу
Rambler's Top100
Book's Выставки, тесты, шоу... Конференция, ее архивы, участники, большой путь... Самодельные конструкции, схемы ... Вопросы и ответы, справочники ... Ссылки, команда сайта ...

Электронное
периодическое издание

Книги, статьи ...          

 

Может ли быть построено недостающее звено теории слухового восприятия?

Если допустить, что аномальные явления в звуке не являются плодом воображения наблюдателей этих явлений, а происходят на самом деле, то следует признать, что существующая теория объяснить эти явления не в состоянии. Возникает необходимость дополнить существующую концепцию как минимум еще одним звеном. При этом предполагаемое звено должно обладать в достаточной мере противоречивыми свойствами: не отвергать явлений, изученных "классической" психоакустикой и объяснять аномальные явления.

Противоречия, появляющиеся при попытке объяснить аномальные явления в рамках существующей теории, лежат в области установленной разрешающей способности слуха. Действительно, с одной стороны, слух различает всего 22000 градаций по частоте и амплитуде [1], причем до 80 % этой величины может не восприниматься из-за маскировки. С другой стороны, CD имеет только для уровня сигнала 65536 градаций, тем не менее, разница в звучании разных CD-проигрывателей уверенно фиксируется. С одной стороны, восприятию музыкального сигнала могут не мешать переходные процессы в громкоговорителях, по своей величине сопоставимые с уровнем сигнала [2] и нелинейные искажения в усилителях, достигающие у ламповых однотактников единиц процентов. С другой стороны, восприятию музыкального сигнала может помешать один единственный пассивный элемент, причем его влияние не может зафиксировать ни один измерительный прибор.

Возникает закономерный вопрос: а может ли быть это вообще? Может ли хотя бы гипотетически существовать механизм слухового восприятия, удовлетворяющий вышеназванным условиям?

Ниже в порядке дискуссии приводится возможный вариант недостающего звена, дополняющего общепринятую концепцию.

Как известно, для определения громкости однотонального сигнала слух затрачивает 100 ms (на пороге слышимости - 200 ms). Если взять импульс синусоидального тона частотой 1000 Гц, то для определения его громкости слух должен последовательно воспринять 100 периодов этой частоты. Если из этой последовательности убрать последний период, то субъективное восприятие громкости будет меньше, чем громкость непрерывного тона. То же самое будет, если из этой последовательности убрать первый период. Воспринятая громкость первых 99 периодов и последних 99 периодов импульса тона будет в первом приближении одинакова, что говорит о равном значении в восприятии громкости, как первого, так и последнего периода импульса тона. В момент времени t=100 ms слух воспринимает все периоды от 1-го до 100-го одновременно. Но это означает ни что иное, как память на предыдущее воздействие (первый период) в течение не менее 100 ms (на пороге слышимости - 200 ms). Если же представить слуховое впечатление тоже как память на предыдущее воздействие, то время хранения информации о нем может доходить до 1 сек. для сигналов с высоким уровнем громкости.

А в какой функциональной форме хранится эта информация? Ответа на этот вопрос существующая теория не дает. Но из временной теории механизма восприятия высоты звука можно увидеть, что синтез фундаментальной частоты по гармоникам производится с элементами позиционирования на оси времени (разряды нейронов синхронизируются с фазой колебания базилярной мембраны) [3]. В том случае, если слух производит анализ временной структуры звуковой волны при восприятии всего лишь высоты звука, нет противопоказаний к тому, чтобы предположить при анализе сложного сигнала способность слуха к памяти на организационную структуру этого сигнала на достаточно большом отрезке времени, может быть, до 200 ms. Звуковой сигнал может анализироваться при этом отдельными неразрывными блоками данных размером 100-200 ms.

Организационная структура состояния параметра (в данном случае звукового давления) в течение времени легче всего фиксируется любым прибором, в том числе и слухом, по характерным точкам изменения его состояния. Для звуковой волны этими точками являются моменты смены знака изменения звукового давления (пики сигнала) и моменты перехода через 0. Слух запоминает эти моменты, кроме того, может запоминаться соотношение уровней, на которых звуковое давление меняет направление изменения. (Здесь и далее имеются в виду функциональные свойства слуха). В слуховую память заносятся данные о характерных точках звукового сигнала на временном отрезке 100-200 ms. Совокупность данных о характерных точках звуковой волны конкретного источника, например, рояля, образует в памяти символ звучания этого источника. Длина символа по оси времени не менее 100-200 ms, что соответствует объему слуховой памяти. В блоке данных одновременно могут быть также символы других источников звука.

Процесс восприятия непрерывного звукового сигнала выглядит как анализ постоянно сменяющих друг друга блоков данных. При этом происходит постоянный процесс идентификации звуковых символов. Идентификация может осуществляться путем сравнения очередного блока с предыдущим, что соответствует корреляционному наложению соответствующих отрезков сигнала. Чтобы разобраться в том, почему слух не реагирует на одни искажения и чрезвычайно чувствителен к другим, надо сначала оценить периодичность циклов формирования слухом блоков данных. Здесь можно вспомнить, как слух воспринимает прямой и задержанный сигналы: задержанный сигнал начинает восприниматься в виде эха при задержке свыше 50 ms. Скорее всего, этот факт говорит о том, что формирование последующего блока данных начинается не ранее 50 ms после начала предыдущего. Если принять продолжительность блока в 200 ms, то одновременно слух анализирует не более 4-х блоков и не менее 2-х, если продолжительность блока принять в 100 ms. Меньше 100 ms размер блока данных, как было показано выше, быть не может. Таким образом, каждый блок данных идентифицируется как минимум один раз с последующим блоком. То обстоятельство, что процесс идентификации может происходить еще и с 3-м, 4-м и, возможно, следующими блоками данных, на ход дальнейших рассуждений влияния не окажет.

Блоки данных формируются слухом каждые 50 ms, перекрывая друг друга. Но 50 ms - это период самой низкой частоты 20 Гц, которая воспринимается слухом. Как это соотносится с процессом идентификации символов? Допустим, в соседних блоках данных отсутствуют какие-либо искажения сигнала в звуковом диапазоне частот. В этом случае произойдет полная идентификация символов, это очевидно. Теперь допустим, что сигналы в соседних блоках одинаково искажены. Но и в этом случае идентификация будет полной. В последнем случае изменятся сами символы, но процесс их идентификации не нарушится. Если фазовые искажения и переходные процессы не меняются с течением времени, то они могут не фиксироваться слухом во всем диапазоне звуковых частот, начиная от 20 Гц. Наличие каких-либо искажений звукового сигнала, если они не меняются во времени, может привести к заметным изменениям лишь некоторых субъективных характеристик звука, не изменяя других субъективных характеристик. Таким образом, процесс восприятия звукового сигнала состоит из двух одновременно идущих процессов: прямого восприятия звуковых символов и идентификации символов (корреляционного сравнения). Существующая теория отображает только первый процесс.

Теперь рассмотрим случай, когда искажения звукового сигнала меняются с течением времени. В этом случае один и тот же звуковой символ в разных блоках данных запишется по-разному и полной идентификации не произойдет. В музыкальном сигнале законы изменения символов во времени задаются исполнителем музыкального произведения. Эти законы относятся к общей организации человеческой психики в части появления и развития эмоций и в психоакустике не рассматриваются. Но эта область и не требует изучения. Мера эмоционального воздействия на слушателя зависит от того, насколько эстетически организовано музыкант передает содержание музыкального произведения. Законы, по которым изменяются звуковые символы, образуют музыкальное сообщение.

Для точной передачи музыкального сообщения необходимы условия, обеспечивающие полную идентификацию слушателем звуковых символов. При акустической передаче музыкального сообщения эти условия достигаются определенными параметрами акустической реверберации[4]. Если же для передачи музыкального сообщения используется электроакустический тракт, то от него требуется выполнение следующего условия: искажения в процессе идентификации звуковых символов в соседних блоках данных (или через 50-200 ms по оси времени) должны быть ниже порога заметности по этому параметру.

Как же оценить этот порог? Для начала надо отметить, что если допустить для слуха способность к анализу организационной структуры звука, то следует принять наличие некоторого момента времени для каждого блока данных, являющимся началом отсчета. Временная позиция характерных точек звукового сигнала определяется при этом как расстояние на временной оси каждой такой точки от начала отсчета. При этом неважно, где находится эта "нулевая" точка: в начале блока (начало фронта сигнала), в середине его (максимальный уровень сигнала), первый переход через 0 по окончании предыдущего блока либо еще где-нибудь. Главное то, что эта точка существует, т.к. при этом происходит переход к позиционной системе записи данных. В этом случае разрешающая способность слуха даже без учета памяти возрастает многократно, так же как при переходе от римской системы записи чисел к арабской одинаковым количеством знаков можно записать неизмеримо большие числа. Если же сюда еще добавить память на организационную структуру и способность сравнивать между собой блоки данных, то разрешающая способность слуха и вовсе может оказаться безграничной.

Рассмотрим теперь возможные искажения символов в соседних блоках данных. Возьмем два соседних блока. В 1-м блоке искажение символов относительно исходного сигнала отсутствует. В последующем блоке допустим искажения символов. Очевидно, что символы в блоках не совпадут в том случае, если во 2-м блоке данных некоторые из характерных точек, образующих символ, сдвинутся по временной оси относительно их исходного состояния на некое Dt. В этом случае идентификация звуковых символов в соседних блоках будет частичной. Чем больше Dt или чем большее количество характерных точек при одинаковом Dt во 2-м блоке не соответствует данным исходного сигнала, тем более заметен на слух данный вид искажений. Вариантов распределения отклонений характерных точек может быть сколько угодно: от случайного равномерного распределения по длине блока до образования отклонения пакета смежных точек, что и может вызывать все многообразие субъективных характеристик звука. Хуже всего, когда по какой-либо причине смещается начало отсчета. Тогда не совпадет ни одна характерная точка и процесс идентификации нарушится. При одной и той же величине отклонения Dt субъективное ухудшение звукового сигнала в этом случае максимально, так как вместо идентификации происходит стирание в слуховой памяти старого символа и запись нового. В естественной акустической обстановке слух определенным образом устанавливает начало отсчета. За основу для определения этой точки может приниматься неизменность акустических свойств естественной среды. В результате соседние блоки данных как бы синхронизируются между собой, как строки в телевизионном сигнале. В звуковоспроизводящей же системе свойства самой системы за период времени от 0 до 200 ms вполне могут измениться из-за воздействия электрического тока на элементы системы. Если цикличность изменения свойств системы совпадает по времени с моментами образования очередных блоков данных, т.е. находится в пределах от 50 до 200 ms, то это как раз и приводит к нарушению условия синхронизации блоков и наиболее заметным искажениям. Такого вида искажения можно, вероятно, отнести к временным искажениям.

Изменения свойств системы, приводящие к максимально заметным временным искажениям, вызываются реальными физическими процессами длительностью от 50 до 200 ms. Эти процессы могут быть двух видов: инерционные и безинерционные. Безинерционные процессы вызывают изменения организационной структуры сигнала в зависимости от его уровня или спектра. Нелинейные искажения сами по себе не вызывают перемещений характерных точек, так же, как и фазовые искажения. Но если они присутствуют одновременно, то это как раз и есть условие передвижения характерных точек сигнала в зависимости от его уровня. В качестве примера зависимости положения характерных точек от спектра можно привести скин-эффект в проводниках. В соседних блоках один и тот же символ соседствует с другими символами, и наличие в одном из блоков постороннего символа с богатым спектром в области высоких частот нарушает общую фазовую когерентность в блоках.

Второй вид процессов - инерционные. К ним можно отнести скиноподобный термодинамический эффект, возникающий из-за нагрева элементов системы электрическим током [5], тепловые искажения в транзисторных усилителях [6], адсорбция в диэлектриках и другие. Вообще, количество физических факторов, способных вызвать заметные на слух временные искажения, может оказаться достаточно большим, если учесть порог чувствительности слуха к этим искажениям. Суммарное действие всех физических факторов, вызывающих в системе временные искажения исходного сигнала, можно представить как помеху с преобладающим действием в области временных интервалов 50-200 ms. Эта помеха вызывает смещение на временной оси "нулевых" точек отсчета в блоках данных и максимально заметна на слух. Величину порога чувствительности слуха к временным искажениям, выраженную в размерности времени, можно определить по величине заметного на слух перемещения АС, находящихся в "точках живого звука". Приняв порог заметности перемещения АС в 0,1 мм, получаем порог заметности для временных искажений Dt:


где - величина перемещения АС, С = 340 m/s - скорость звука.

Смещение точек отсчета вызывается медленными изменениями свойств системы с длительностью процессов 50-200 ms. По отношению к длительности этих процессов величина 0,3 mс характеризует порог чувствительности к временным искажениям как очень высокий. Для сравнения: 0,3 ms - это период частоты 3,3 МГц. Если взять синусоидальный сигнал с периодом, сопоставимым с длительностью вышеупомянутых процессов, например 20 Гц, то изменение времени задержки этого сигнала на 0,3 ms происходит при изменении фазы этого сигнала.

, где f = 20 Гц - частота.

Соответствующее изменение амплитуды этого сигнала в области максимальной амплитуды:

%, или - 184 дБ,
где DА - относительное изменение амплитуды.

При таких величинах аномальные явления перестают быть таковыми и приобретают вполне закономерный характер. В заключение остается коротко обрисовать структуру возможного варианта недостающего звена теории слухового восприятия. Его суть - предположение о существовании механизма последовательной корреляции. Цепь логичных рассуждений такова:

  • 1) Способность слуха к анализу организационной (амплитудно-временной) структуры сигнала и к памяти на эту структуру, в первую очередь - на временную. Это предположение, хотя доказать обратное труднее, чем само это предположение.
  • 2) Способность слуха сравнивать между собой временную структуру отдельных участков звукового сигнала. Это тоже предположение. Основанием для такого предположения является то, что набор свойств слуха, с учетом п/п 1), дает такую возможность реализовать.
  • 3) Дальнейшая логическая цепочка является набором необходимых условий реализации вышеназванного процесса. Говоря о временной структуре необходимо установление нулевой точки отсчета. Говоря о корреляционном сравнении отрезков сигнала необходимо говорить о совмещении нулевых точек отсчета этих отрезков. Условием правильной обработки информации при этом процессе является постоянство свойств канала передачи звуковой информации. Если постоянство свойств не соблюдается, в работе механизма последовательной корреляции возникают искажения, заметные на слух. Наибольшие искажения происходят при нарушении процесса совмещения нулевых точек смежных отрезков сигнала. Нарушение процесса совмещения вызывается сравнительно медленными изменениями свойств канала передачи. Приведенная в данном п/п логическая цепь оказывается достаточно устойчивой для возможных ошибок: в конечном итоге получается один и тот же результат.
  • 4) Медленные изменения свойств электроакустической системы вызываются реальными физическими факторами и приводят к заметным на слух искажениям звукового сигнала. С учетом порога чувствительности слуха к таким искажениям могут быть объяснены все известные звуковые аномалии.

С. Поляков

P. S. Вопросы, возражения и дополнения к предлагаемому сообщению прошу присылать на адрес souslin@mail.ru или souslin@e-mail.ru, а также на форум.

Литература.
1) "Справочник по акустике" под ред. М.А. Сапожкова, Связь, 1979 г.
2) А.С. Гайдаров. "Новое в электроакустическом преобразовании", материалы научно-технического семинара выставки "Российский Hi-End' 2000", кафедра РВ и ЭА МТУСИ, 2000 г., С. 31-34.
3) И. Алдошина. "Основы психоакустики. Часть 1". Ж-л "Звукорежиссер" № 6, 1999 г.
4) А. М. Лихницкий. "Формула звука", ж-л АудиоМагазин №3(32) 2000г., с. 107-111.
5) А.А. Квитка, "Термодинамические аспекты звуковоспроизведения", материалы научно-технического семинара выставки "Российский Hi-End' 2000", кафедра РВ и ЭА МТУСИ, 2000 г., С. 43-45.
6) А.М. Лихницкий, "Рандомизация в вопросах и ответах", ж-л АудиоМагазин № 6 (35) 2000 г., С. 129-131.

 

Rambler's Top100
TopList
Мир DVD
© "Мир Audio", 2002г. Все материалы являются собственностью редакции. Перепечатка или воспроизведение их любым способом полностью или по частям допускается только с письменного разрешения редакции.