Об использовании относительных просодических и спектральных характеристик в задаче криминалистической идентификации личности по звучащей речи.. Статья обновлена в 2023 году.

Об использовании относительных просодических и спектральных характеристик в задаче криминалистической идентификации личности по звучащей речи.

Об использовании относительных просодических и спектральных характеристик в задаче криминалистической идентификации личности по звучащей речи

Каганов А.Ш.
Российский федеральный центр судебных экспертиз

(статья передана для публикации в сборнике филфака МГУ)

 

Криминалистическая идентификация – это установление наличия или отсутствия тождества того или иного материального объекта – в данном случае человека – по его отображениям [1]. Интуитивно ясно, что для установления указанного тождества в качестве идентификационных могут быть использованы лишь устойчивые индивидуализирующие признаки. Таким образом, проблема выявления устойчивых идентификационных признаков говорящего становится ключевой проблемой задачи криминалистической идентификации личности по звучащей речи. Данная проблема конкретизируется через возможности аудитивной (точнее   аудитивно–лингвистической) и инструментальной частей единого комплексного исследования [2] на данном этапе развития прикладной лингвистики.

Не останавливаясь в данной работе подробно на анализе аудитивных и лингвистических идентификационных признаков, характеризующих личность говорящего, затронем только такие важные аспекты инструментальной части комплексного идентификационного исследования, как анализ некоторых относительных просодических и спектральных характеристик речи.

Описанный ниже инструментальный анализ указанных характеристик в задаче криминалистической идентификации личности диктора включает в себя

выявление тех относительных параметров основного тона, которые выступают в качестве устойчивых идентификационных признаков, характеризующих источник возбуждения речевого сигнала;

  • получение устойчивых критериев оценки акустического качества звуков речи индивидуума с помощью формантных соотношений;
  • сравнительный анализ «веса» абсолютных и относительных просодических и формантных показателей, выступающих в качестве идентификационных признаков говорящего.

Перейдём к рассмотрению поставленных вопросов. Обращаясь к криминалистическим основам задачи идентификации говорящего, заметим, что, в системе материальных источников информации, используемой в доказывании, значительный объём занимают отражения функционально–динамических комплексов (ФДК) навыков, носителем которых является человек [3].

ФДК навыков – это явление психофизиологической природы. Сущность его составляют навыки или системы навыков совершения определенных действий (осуществления деятельности). Под навыком принято понимать «умение выполнять целенаправленные действия, доведённое до автоматизма в результате сознательного многократного повторения одних и тех же движений или решения типовых задач в производственной или учебной деятельности»[1]. Таковы, в частности, навыки речи, письма, ходьбы и т.д.

Будучи материально отображенными в обстановке расследуемого события, ФДК оказываются источниками криминалистической информации.

Коммуникативные (речевые) ФДК навыков – основное средство коммуникации человека. Заметим, что между устными и письменными ФДК навыков существует определенная корреляционная связь. Вместе с тем каждая из упомянутых подгрупп обладает автономностью, обусловленной различием анализаторов, реализующих ФДК и включающих разные эффекторные блоки функциональных систем (в устной речи – артикуляционный аппарат, в письменной чаще всего рука).

Устно–речевые ФДК являются предметом изучения отрасли криминалистических знаний – судебной фонографии, которая изучает звучащую речь, звуковую среду, условия, средства, материалы и следы звукозаписей, а также разрабатывает методы их исследования в целях решения задач криминалистической экспертизы звукозаписей.

Переходя к научно–историческому фундаменту инструментальных аспектов криминалистической идентификации личности по звучащей речи, отметим, что хотя первую научную попытку построить акустическую модель звуков человеческой речи предпринял, очевидно, в 1779 году Кратценштейн (когда он представил подобную модель на  конкурс С.– Петербургской Императорской Академии Наук  [4]), только в 1870 году, т.е. спустя почти 100 лет,  акустическая теория речеобразования получила серьёзное научное оформление в основополагающей работе Г. Гельмгольца [5]. Краеугольные положения данной работы остались практически без изменения до настоящего времени и разделяются большинством специалистов. Сразу оговоримся, что современная интерпретация  работы Гельмгольца учитывает, конечно, целый ряд математических и методико–технологических усовершенствований, введённых в неё современными исследователями (упомянем здесь классические работы С.Н. Ржевкина [6], Дж. Фланагана [7] и Г. Фанта [8]).

Согласно Г. Гельмгольцу процесс речеобразования состоит из двух независимых компонентов: возбуждения как такового звука и формирования акустического качества звука за счёт возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении).

Определение характеристик источника возбуждения звука представляет собой достаточно сложную и трудоемкую задачу и требует отдельного рассмотрения. Известно, что в процессе голосообразования вырывающаяся из голосовой щели воздушная струя благодаря эффекту Бернулли приводит достаточно близко сведенные голосовые связки в колебательное движение. В результате этого на выходе гортани образуются колебания воздуха, воспринимаемые ухом как звуки голоса, которые характеризуются высотой, силой и тембром. Если сила и тембр, проходя через надгортанные полости, значительно видоизменяются в зависимости от параметров этих полостей, то высота голоса – частота смыкания складок [2] – сохраняется, представляя собой одну их основных индивидуальных особенностей голоса [9].

Высота голоса отражает частоту колебания голосовых складок, которая зависит от длины, толщины, натяжения и степени сведения складок. Длинные, толстые и слабо натянутые голосовые складки обеспечивают низкие по высоте звуки. Увеличение натяжения складок, осуществляемое с помощью мышечного аппарата гортани, влечет за собой повышение высоты звука.

Согласно общепринятой на сегодняшний день теории образования голоса (фонации) звуковой сигнал получается путем квазипериодической модуляции выдуваемого легкими постоянного потока воздуха, осуществляющейся путем изменения ширины щели между голосовыми складками.

Основными параметрами, которые характеризуют процесс периодического размыкания и смыкания голосовой щели, являются объем выдыхаемого воздуха в единицу времени и подскладочное давление. Полученные в результате описанного процесса импульсы голосового источника повторяются с частотой основного тона. Частота основного тона (ЧОТ) голоса обратно пропорциональна периоду колебаний голосовых складок и обусловлена в основном их массой и упругостью, величиной подскладочного давления и степенью сведения голосовых складок.

Все эти параметры, а также устойчивые динамические стереотипы управления голосовым источником, т.е. функционально–динамические комплексы (ФДК) навыков по терминологии [3], являются индивидуальными показателями и, следовательно, могут выступать в качестве источника идентификационных признаков, характеризующих личность говорящего.

С целью определения устойчивых идентификационных признаков, характеризующих  работу голосовых складок индивидуума, рассмотрим сравнение характеристик среднего значения частоты основного тона и относительного диапазона изменения основного тона D[3] на примере реальных экспертиз.

Для сравнительного анализа были выбраны материалы тех экспертиз, в которых речевая ситуация исходных записей (в основном телефонных разговоров) не совпадала с речевой ситуацией, характерной для получения образцов голоса и речи фигурантов экспертиз (образцы представляли собой, как правило, беседу со следователем или допрос фигуранта в судебном заседании).

Статистический анализ, проведенный по результатам 10 экспертиз, показал, что средневзвешенное относительное отклонение [4] средних значений ЧОТ исходных и сравнительных записей составило 12,8%. В то же время средневзвешенное относительное отклонение относительного диапазона изменения основного тона D на данной выборке составило менее 5,4 %.

Хотя и тот, и другой показатели находятся в пределах внутридикторской вариативности, из приведенных результатов видно, что относительный диапазон изменения основного тона D явился в данном случае более «сильным» идентификационным признаком, чем среднее значение частоты основного тона. Другими словами можно сказать, что как идентификационный признак относительный диапазон изменения основного тона D обладает большим «весом», чем среднее значение частоты основного тона.

(Важно пояснить, что по результатам комплексного идентификационного исследования в каждой из экспертиз, включенной в анализируемую выборку, выявленные в результате аудитивной, лингвистической и инструментальной частей сравнительного идентификационного исследования признаки составляли устойчивый комплекс, достаточный для установления индивидуально–конкретного тождества между голосом и речью того диктора, речевая продукция которого была зафиксирована на фонограммах исходных разговоров, и голосом и речью фигуранта, образцы голоса и речи которого были представлены для сравнения).

Далее из проанализированной выборки были отобраны те экспертизы, в которых в качестве исходных записей были представлены телефонные разговоры фигурантов, проводимые по мобильным телефонам в условиях наличия в телефонном тракте шумов и помех.

Статистический анализ относительных отклонений среднего значения частоты основного тона речевого материала исходных записей, от средней ЧОТ образца, проведенный по результатам четырёх отобранных экспертиз, показал, что средневзвешенное относительное отклонение среднего значения ЧОТ составило 18,3%, т.е. оказалось близким к предельно допустимой внутридикторской вариативности. В то же время средневзвешенное относительное отклонение относительного диапазона изменения основного тона D на данной выборке составило всего 3,8 %.

Полученные данные могут быть объяснены большими различиями в речевой ситуации исходных и сравнительных записей: наличием шумов и помех в трактах мобильной связи, что повлекло за собой форсирование голоса и как следствие значительные изменения параметров ЧОТ (среднее значение основного тона было выбрано нами лишь в качестве примера), в то время как образцы звучащей речи фигурантов были получены в кабинете следователя и не требовали форсирования голоса.

 

Расширим рамки анализа и перейдем к рассмотрению тех устойчивых идентификационных признаков инструментальной группы, которые связаны со спектральными характеристиками речи.

В процессе решения задачи криминалистической идентификации   личности по голосу и звучащей речи необходимо учитывать работу органов речеобразующего аппарата, при­дающих голосу индивидуальную тембровую окраску и формирующих   поток зву­ков речи, т.е. проанализировать вторую независимую компоненту  процесса речеобразования в модели Г. Гельмгольца.

Обратимся к механизму формирования и критериям оценки акустического качества звука за счёт возбуждения резонансных частот артикуляционного тракта говорящего с целью определения тех относительных спектральных характеристик речи, которые могут быть использованы в качестве устойчивых идентификационных признаков.

Ещё в середине 50–х годов прошлого века отечественными исследователями Л.А. Варшавским и И.М. Литваком   была высказана гипотеза о том, что акустическое качество звуков определяется  соотношением уровней сигнала в полосах спектра [10]. При этом форманты (т.е. максимумы в спектре речевого сигнала) являются лишь доступным для речеобразующего  аппарата способом достижения необходимых полосных соотношений.

Время показало, что высказанная в [10] мысль оказалась справедливой, фундаментальной и обладающей большой объяснительной силой. Позднее, при расширении прикладных исследований звучащей речи, возникли новые вопросы. Потребовалось развитие этой теории применительно к речевому материалу ограниченного объема (т.е. решение задачи при наличии ограничений) [11]. Такое развитие позволило распространить упомянутую выше гипотезу Л.А. Варшавского и И.М. Литвака на решение задачи криминалистической идентификации говорящего.

Итак, индивидуальность говорящего определяется общей формой спектра [12], т.е. соотношением уровней сигнала в спектральных полосах [10]. Существенно отметить при этом, что форманты служат способом реализации указанных полосных соотношений. Сказанное является исходным положением для решения задачи криминалистической идентификации говорящего. В основе такого решения по–прежнему лежит поиск устойчивых идентификационных признаков (которые в данном случае выявляются по стабильным спектральным характеристикам).

Известно, что устойчивые идентификационные признаки могут иметь разную природу [2]. К числу таких устойчивых признаков относятся и формантные соотношения – F2/F1, F3/F1, F3/F2  и т.д. Анализ этих соотношений необходим при идентификации говорящего, находящего в разных речевых условиях (деловой разговор по телефону, выступление перед аудиторией, разговор со следователем и др.), в разном эмоциональном состоянии (спокоен, возбужден, подавлен, испуган, оживлен и т.д.).  В этих ситуациях формантные соотношения обладают бoльшей устойчивостью по сравнению с абсолютными значениями формант и поэтому являются более доказательными идентификационными признаками. Такой вывод основан на опыте решения задачи распознавания говорящего по реальным фонограммам, который показывает, что при изменениях абсолютных значений формант в силу тех или иных причин (например, в зависимости от ситуации речевого общения, эмоционального состояния говорящего и т.д.) соотношения формант практически не меняются.

Рассмотрим сравнительные характеристики речи (по признаку соотношения формант F2/F1) в разных речевых условиях и в разном эмоциональном состоянии говорящего. Различия обобщены в таблице I и озаглавлены как ситуация 1 и ситуация 2. В первом случае говорящий эмоционально ан, осторожен, краток. Голос звучит сухо, деловито, приглушенно. Во втором случае артикуляторно четко и полно представлена реализация гласных, согласные не напряжены, речь нетороплива (темп речи снижен по сравнению с ситуацией 1 ? на 10%).

Как видно из таблицы I в ситуации 1 и в ситуации 2 усредненные абсолютные формантные показатели речи значительно расходятся, но соотношение F2/ F1 остается практически неизменным – устойчивым, т.е. как отмечалось выше, соотношения формант меняются в незначительной степени или практически не меняются.

Итак, соотношение формант остается стабильным, а данный идентификационный признак – формантные соотношения – оказывается устойчивым даже на материале ограниченного объема.

Таким образом, положение о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра [10] получает новое развитие при сопоставлении речи одного и того же говорящего (т.е. при установлении факта наличия (или отсутствия) тождества в криминалистическом понимании).

таблица I

 

параметры формантного анализа   F2/ F1
гласный средняя частота формант, Гц ситуация 1 ситуация 2
а исх. –  F1=535 и F2=1390
срав.–  F1= 580 и F2=1500
2,6 2,6
и исх. –  F1=310и F2=2015
срав.–  F1=300 и F2=1970
6,5 6,6
о

исх. –  F1=457 и F2=945

срав.–  F1=390 и F2=840

2,0 2,2

 

Оценивая приведенные результаты исследования акустического качества звуков речи с помощью абсолютных и относительных формантных показателей, отметим, что если средневзвешенное относительное отклонение исходного (ситуация 1) и сравнительного (ситуация 2) речевого материала, подсчитанное по средним значениям формант, в данном примере составило 8,4 %, то средневзвешенное относительное отклонение, подсчитанное по отношениям F2/F1 (столбцы 2 и 3 таблицы I), составляет всего 3,5 %.

Хотя и тот, и другой показатели находятся в пределах внутридикторской вариативности, из приведенных результатов видно, что соотношение формант явилось в данном случае более «сильным» идентификационным признаком, чем средние значения формант. Как и в случае относительного диапазона изменения частоты основного тона D, можно утверждать, что в качестве идентификационного признака соотношение формант обладает большим «весом», чем абсолютные значения формант.

Завершая обсуждение таблицы I, заметим, что наилучшее совпадение относительных формантных показателей исходной и сравнительной записей по звуку [a] может быть объяснено тем фактом, что среди всех гласных русского языка гласный [a] наиболее устойчив в спектральном отношении к шумам акустической обстановки и искажениям. В силу вышеприведенных причин спектральные характеристики  гласного [a] оказались наиболее устойчивыми к различиям в речевой ситуации, в контекстном окружении [13],   в объёме и качестве речевого материала исходной записи и фонограммы–образца.

Итак, фундаментальная мысль об определении акустического качества звуков через  соотношения уровней сигнала в полосах спектра [10] в задаче криминалистической идентификации говорящего реализовалась с помощью отношений средних значений частот формант (F2/F1), т.е. форманты  явились доступным для речеобразующего  аппарата способом достижения необходимых полосных соотношений. Таким образом, сочетание двух методов спектрального анализа  даёт возможность выявления тех устойчивых идентификационных признаков инструментальной группы, которые связаны со спектральными характеристиками речи индивидуума.

Проведенный анализ речевого материала в конкретном многообразии криминалистических экспертиз показывает, что при изменениях абсолютных значений параметров основного тона и формант в силу тех или иных причин (например, в зависимости от ситуации речевого общения, эмоционального состояния говорящего и т.д.) относительные фонационные и артикуляционные показатели – относительный диапазон основного тона D и соотношения формант – остаются стабильными и могут быть использованы в качестве устойчивых идентификационных признаков говорящего.

Таким образом, функционально–динамические комплексы (ФДК) навыков, носителем которых является человек, служат источниками выявления индивидуальных особенностей речи. Они позволяют выявить те устойчивые идентификационные признаки, которые связаны с относительными просодическими и спектральными характеристиками речи.

Литература

 

Белкин Р.С. и др. Криминалистика. М:. Юридическая литература.1968. – 695 с.

Каганов А.Ш. Средства фоно– и видеотехники как источник доказательственной информации // Вещественные доказательства. Информационные технологии процессуального доказывания./ под ред. д.ю.н., проф. В.Я. Колдина – М.: Норма., 2002. – 742 с.

Основы судебной экспертизы. Под ред. Корухова Ю.Г. Ч.1., Общая теория. РФЦСЭ при МЮ РФ. М., 1997. – 430 с.

Kratzenstein Ch. G. Qualis sit natura et character sonorum litterarum vocalium a, e, i, o, u tam insigniter inter se diversorum / – St.– Peterburg, 1779.

Helmholts    H. Die    Lehre    von      den     Tonempfindungen      als  physiologische  Grundlage fur die Theorie der   Musik,  Braunschweig, 1870.

Ржевкин С.Н. Слух и речь в свете современных физических исследований. – М.: – Л.: ОНТИ, 1936. – 311 с.

Фланаган Дж. Л. Анализ, синтез и восприятие речи / Пер. с англ. – М.: Связь, 1968. –292 с.

Фант Г. Акустическая теория речеобразования / Пер. с англ. – М.: Наука, 1964. – 284 с.

Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами. STS – D106.1. Центр речевых технологий. – СПб., 1998.

Варшавский Л.А., Литвак И.М.   Исследование формантного состава и некоторых других физических характеристик звуков русской речи // Проблемы физиологической акустики. – 1955. – Т.3. – С. 5–17.

Каганов А.Ш. Инструментальное исследование спектральных характеристик  в задаче криминалистической идентификации   личности по звучащей речи. // Статья находится в печати.

Галунов В.И., Гарбарук В.И. Акустическая теория речеобразования и система фонетических признаков. Метериалы международной конференции 100 лет экспериментальной фонетике в России. С.–П: Филологический факультет Санкт–Петербургского университета. 2001. стр. 58–62.

Златоустова Л.В.   Фонетические единицы русской речи.  - М.: МГУ, 1981. - 108 с.


[1]Советский энциклопедический словарь. – М., 1979. – с. 863.

[2] Более точным представляется говорить именно о голосовых складках, а не о голосовых связках, поскольку анатомически голосовая связка – это только тонкая перепонка, идущая по краю голосовой складки.

[3] За значение относительного диапазона изменения частоты основного тона D принята величина равная отношению максимального значения ЧОТ (среднее значение ЧОТ плюс удвоенное значение СКО) к минимальному (среднее значение ЧОТ минус удвоенное значение СКО).

[4] Под относительным отклонением понимается модуль разности между средней ЧОТ исходной и сравнительной записей, деленный на значение средней ЧОТ сравнительной записи.