?

Log in

No account? Create an account
entries friends calendar profile Чулан и склад Вольфа Кицеса Previous Previous Next Next
Как мозг классифицирует звуки речи - Вольф Кицес — LiveJournal
wolf_kitses
wolf_kitses
Как мозг классифицирует звуки речи
«Команда исследователей сообщает, что мозг не реагирует на отдельные сегменты звуков, известные как фонемы (например, на звук б в слове "бой"), но вместо этого способен распознавать простейшие языковые элементы.
"Данный процесс напоминает работу зрительных детекторов для краев и форм, которые позволяют распознавать объекты, например бутылки, в независимости с какой точки зрения мы их рассматриваем", - говорит ведущий автор работы Эдвард Чанг.
Специальные зоны в речевых центрах отслеживают общие характеристики у звуков, создающиеся при перемещении губ, языка или голосовых связок, сходных по акустике и произношению, благодаря чему мы распознаём их вне зависимости от особенностей дикции говорящего.
Одни группы нейронов ("узнают") избирательно реагируют на:
- взрывные согласные (смычные) – п, т, к, б, г (губы и язык препятствуют движению воздуха, вырывающегося из лёгких),
другие – на фрикативные согласные (щелевые согласные), такие как с, з и в (они лишь частично заслоняют дыхательные пути, создавая трение воздуха).
- гласные заднего ряда
- гласные переднего ряда вместе с полугласными согласными.
"Изучив все звуки английской речи, мы обнаружили, что мозг имеет системную организацию для основных звуковых единиц. Мы преобразуем звуки в значения, фонемы в слова, а слова – в смысл, – подводит итоги Чанг (Edward F. Chang). – Это похоже на структурирование элементов периодической таблицы".

"Когда мы слышим чью-то речь [разные звуки], "загораются" различные области мозга, – комментирует один из авторов работы Нима Месгарани (Nima Mesgarani). – По сути, мы слышим поток различных элементов речи".
Мы можем узнать звуки речи независимо от того, кто и как их говорит: громко, тихо, растягивая слова или, наоборот, торопливо. «Б» мы услышим как «б», а «п» как «п» при любой дикции (разумеется, особо клинические случаи не в счёт). Отсюда можно сделать вывод, что в нашем мозге, вероятно, есть особая система, которая различает такие элементарные речевые единицы. Осталось только эту систему найти.
Например, среди согласных есть так называемые взрывные, которые характеризуются одинаковой манерой произношения и обладают рядом общих звуковых черт. Вот именно такие общие характеристики, объединяющие согласные — взрывные, фрикативные или сонорные, — и регистрировали нейроны зоны Вернике (верхней височной извилины/STG). Благодаря этому умению мозга различать систематические признаки звуков речи мы можем узнать звук «б» независимо от особенностей дикции говорящего.
Разумеется, мозг способен различать и отдельно взятые звуки, но в данном случае речь идёт о нейронных кластерах, которые сильнее реагируют именно на классовые признаки речевых звуков и не обращают внимания на индивидуальные отличия «б» от «д».
Похожая вещь есть и у обезьян, так что те, кто занимается проблемой возникновения речи, получили новую пищу для размышлений.  "phoneme similarity space in STG is driven more by auditory-acoustic properties than articulatory ones"
P.S. Давно хотел сказать, что эпилептикам, участвующих в экспериментах, нужно поставить памятник за вклад в науку!
См. также по теме
А) "Получена детальная карта речевых паттернов, по разному запускающих единый нервно–мышечный аппарат звукопроизношения (язык, губы, челюсть и голосовые связки гортани)":
1. У гласных и согласных — разные группы нейронов, спасибо им за членораздельность.
2. Нейроны выделены в функциональные блоки — звуки на кончике языка (переднеязычные - [С],[З],[Ш]), с задней поверхности языка [Г], [К], [Х], губные звуки [М],[В],[Ф].
Нейронная активность для чистых гласных звуков разделилась на две части: та, которая нужна для округления губ (лабиализованные - [о],[у]), и необходимая для звуков ([а],[и], [ы], [э]), где губы округлять не нужно.
3. Мозг воспроизводит речь не фонетически (на слух), а механически (через сложную нервно–мышечную память звукообразования). То есть образец для сравнения — не звучащее слово, а набор движений языка, голосовых связок, губ и щёк[1].
Давно заметил, что длительное пребывание в новой языковой среде приводит к забыванию вокализации родного языка, что объясняет смешной акцент (американизация русского, например) по возвращению.
4. Скороговорки с похожими согласными (С и Ш, например) приводят к одновременной активации пересекающихся по общим паттернам нейронов. То есть сложность произнесения скороговорок определяется близостью групп нейронов, которые нужны для произнесения чередуемых в них звуков. Мозг ориентируется не на итоговый звук, а на работу языка.
В будущем, надеются авторы работы, эти сведения помогут в терапии речевых расстройств, от лёгких дефектов речи до немоты.
“If we can crack the neural code for speech motor control, it could open the door to neural prostheses,” Hickok says. “There are already neural implants that allow individuals with spinal-cord injuries to control a robotic arm. Maybe we could do something similar for speech?”
Источник

Б) Незаметная смерть распознавания речи.
В) Как заставить машину понимать живую речь?
Источник ВКонтакте

P.P.S. Забавно, что системы коммуникации животных строятся тем же способом. Они базируются на системе оппозиций, задающих незначимые «атомы поведения» - модели движений (элементарные двигательные акты, ЭДА), и на устойчивых корреляциях по времени предъявления ЭДА. Последние «стягивают» их в уже значащие «молекулы поведения» - демонстрации, так что здесь наблюдается «двойное членение», присущее также и языку. Кроме случаев, о которых уже писал, см. «расшифровку» сигнальных систем маскового ткача[2] или полосатого мангуста, устроенных» именно так.

Понятно, что это изоморфизм, а не гомология, но красивый, и, главное, превосходно укладывающийся в параллелизм форм инстинктивного и выученного, который наблюдается и между разными видами животных, и между людьми и животными.





[1]Это изоморфизм с точным воспроизведением специфических форм демонстраций в скоординированных телодвижениях у животных, аналогия с фигурами танца эвристична в обоих случаях.
[2]Вокализации этого вида составлены из т.н. базовых элементов, варьирующих по продолжительности, частоте, громкости и тональности сигналов. При «производстве» сигналов они объединяются в пары с противоположными характеристиками, благодаря чему уменьшается двусмысленность каждого из них и «подчёркиваются» границы между сигналами, идущими друг за другом в последовательности, даже если они включают акустически близкие вокализации. В сущности это коммуникационный код.

Tags: , , , , , , , , , , , ,

16 comments or Leave a comment
Comments
alisarin From: alisarin Date: November 28th, 2014 07:29 pm (UTC) (Link)
Все хорошо, но, на мой взгляд, неверно выбрана позиция фокуса. Восприятие фонетики - это шаблонное мышление, оперирование макросами, откуда "омофоны" - Примеры в русском языке: порог — порок — парок, луг — лук, плод — плот, туш — тушь, падёж — падёшь, бал — балл, косный — костный, предать — придать, компания — кампания, привидение — приведение, эстакада — эстокада, кот - код, прут - пруд.

Как и в чтении "вид слова", так и здесь - основу составляет "большой аккорд", иногда даже предложение, а не звучание отдельных фонем. Т.е. упрек в том, что данная работа не использует результатов лингвистики, которые, тем не менее, добротны, но почему-то игнорируются физиологами)

Мое мнение))
kmaal From: kmaal Date: November 29th, 2014 02:45 am (UTC) (Link)
Я бы не сказал, что данная работа не использует результаты лингвистики. Здесь речь идет о том, что описанные в лингвистике дифференциальные признаки - реально функционирующий механизм, а не искусственная лингвистическая абстракция.
Но здесь рассматривается именно механизм распознавания того, что физически услышано. И его наличие никак не отменяет того, что в физически услышанном и распознанном присутствует неоднозначность, будь то на уровне омофонов, лексических омонимов, неоднозначности грамматических форм и т.д., которая снимается уже при помощи другого механизма.
alisarin From: alisarin Date: November 29th, 2014 11:02 am (UTC) (Link)
Если допустить своего рода "уточнение" моей претензии, то она вот в чем. В физиологическом эксперименте берется искусственная ситуация, а не реальная деятельность или задача. И здесь "сама логика" искусственной ситуации задает как бы "модель", что не есть истина. Как ребенок в реальной ситуации учит буквы после слов, так и восприятие работает по "макро-схеме" - оно идентифицирует модули "длинных аккордов", которые мы называем "словами", а в данном качестве выступают и выражения, а не синтезирует блоки из буквенных фонем. Доказательство - человек в случае омофона скорее воспринимает "привычную" структуру, чем фонетически правильную. Например, если даже с отменной дикцией говорить "в доске", то второпях будет слышаться "в тоске", поскольку это более частотная форма высказывания. Следовательно, при анализе речи, в первую очередь, следует исходить из способности музыкального слуха, а не точной тональной регистрации фонем. Слух - это именно восприятие "мелодий", а не чего-либо иного.

Если бы не подобные особенности именно слухового восприятия, то и поэтические тексты потеряли бы 90% их ценности, и религиозные тексты в том числе, между прочим. Так что не признаю "физически услышанного", признаю только "услышанную мелодию" )
kmaal From: kmaal Date: November 29th, 2014 11:52 am (UTC) (Link)
Ваш пример еще более искусственный.
В реальной деятельности люди вполне в состоянии диктовать и записывать под диктовку незнакомые фамилии и географические названия, выучивать иностранные слова (если им известны дифференциальные признаки, которыми этот язык пользуется).
Если вам продиктуют слова испанского или японского языка, которые для вас ничего не значат, вы вполне сможете записать в транскрипции или даже русскими буквами.
Но вот если в изучаемом языке другой набор дифференциальных признаков, это очень серьезно усложняет дело. Если вы пробовали учить, например, китайский, тайский или арабский, вы понимаете, о чем речь.
Психологический механизм корректировки понимания на основе проверки осмысленности распознанного текста и сверки его с контекстом, безусловно, существует и может давать сбои, но для того, чтобы он мог применяться, человеку для начала нужно хотя бы что-то услышать.
alisarin From: alisarin Date: November 29th, 2014 01:58 pm (UTC) (Link)
== Если вам продиктуют слова испанского или японского языка, которые для вас ничего не значат, вы вполне сможете записать в транскрипции или даже русскими буквами.

И результат будет простой - Вы будете их произносить "нараспев". Еще один аргумент в пользу того, что фонетика вторична - это неспособность изучившего иностранный язык человека понимать быструю устную речь, а медленную - пожалуйста!

== но для того, чтобы он мог применяться, человеку для начала нужно хотя бы что-то услышать.

Это просто бесспорно) Вопрос не в этом, а в логике становления способности владеть языком - в "естественных условиях" она идет от слов и выражений (если читать Сепира, то там очень хорошо сформулирован принцип что "слова есть выражения"), а в случае некоторых искусственных практик, типа обучения иностранному языку - может и от фонетики; но и здесь я бы определил значение фонетического разложения слов как сильно "искусственный" прием.

И тогда -

== В реальной деятельности люди вполне в состоянии диктовать и записывать под диктовку незнакомые фамилии и географические названия,

... и произносить их с неправильными ударениями)

P.S. Даже, положим, я в своем "мнении" сильно заблуждаюсь. Но статья научная, но ее автор не обращает никакого внимание на обоснование самой методики эксперимента, почему, собственно, и из каких соображений он понимает фонетически-буквенное разложение первичным началом? Да, лингвистика описывает язык папуасов посредством фонетического алфавита, но сами папуасы не понимают, что это такое. Но - папуасы, пусть и не прямо, но понимают что такое слова... ))
kmaal From: kmaal Date: November 29th, 2014 03:12 pm (UTC) (Link)
Становление владения языком у ребенка - да, идет от неделимых слов-возгласов к членораздельной речи, т.е. к манипулированию корнями, приставками, суффиксами и окончаниями согласно правилам языка, с самостоятельным придумыванием слов путем замены фонем и их свободного комбинирования.
Тем самым иллюстрируя то, что истинно человеческая речь появляется именно тогда, когда носитель овладевает манипулированием этими структурными единицами.

Разложение на морфемы и фонемы, кстати, открыли очень давно и, возможно, независимо от изобретения письма и букв - оно описано в санскритской грамматике Панини, которая является памятником устной традиции V-III веков до н.э.. Это и есть древние основы лингвистики, благодаря которым древним индийцам удалось внятно изложить устройство санскрита на две с лишним тысячи лет раньше, чем европейцы это сделали для своих языков (собственно, только сейчас делают, уже в компьютерную эпоху). Так что обоснование тут такие же основы науки, как, скажем, в теореме Пифагора - можно, конечно, говорить, что никаких треугольников и квадратов в природе нет, все это выдумки сумасшедших математиков, но практической пользы от таких споров будет немного.
alisarin From: alisarin Date: November 29th, 2014 09:01 pm (UTC) (Link)
== Становление владения языком у ребенка - да, идет от неделимых слов-возгласов к членораздельной речи, т.е. к манипулированию корнями, приставками, суффиксами

Моя мысль ведь только в том, что если овладение языком происходит именно в такой последовательности, то и уровень или структуру макрокомбинации следует признать первичной стадией регистрации звукового сигнала, а выделение фонем - вторичной. И - как-то учитывать этот момент в исследованиях физиологов. Или, если моя гипотеза неверна, то доказательно показать, что это не так. Но пока "простой жизненный опыт" плюс некоторые данные лингвистики дают больше оснований думать, что слуховое восприятие строится в "направлении" от большего к меньшему)
wolf_kitses From: wolf_kitses Date: November 30th, 2014 10:33 pm (UTC) (Link)
Спасибо за интересную дискуссию. Однако же эта работа, как и многие другие показывает, что продуцирование речи идёт независимо от её звучания и восприятия. Не только в каждый отдешльный момент, но и в онтогенезе тоже: и если посмотреть развитие артикулированной речи из лепета, то сперва в нём можно найти фонемы всех языков, однако же неучтойчивые и переходящие друг в друга, затем - только фонемы заданные оппозициями родного языка. Потом ребёнок складывает их в слоги, которые ситановятся как бы словами "детского языка" и пр. Читал об этом в "Происхождении языка" СА Бурлак и др. психолингвистических работах. Т.е. Ваше замечание несколько не про это.
alisarin From: alisarin Date: December 1st, 2014 11:14 am (UTC) (Link)
Ответ следует начать с моей оценки работы С. Бурлак, хотя она и предварительная. Уже из анонсов данной работы, публиковавшихся А. Марковым, я понял, что ей далеко до уровня научной достаточности и чтобы не портить себе настроения, я решил не знакомиться с ее содержанием. Ну увы...

Второй момент - ваша точка зрения сформулирована в виде некоторых положений, вполне допускающих логический анализ излагаемого там понимания.

В таком случае первое - "распевку не следует понимать пением"; существует возможность технического освоения приемов некоторой деятельности, которую и можно определить как "распевку", и есть функциональное использование таких возможностей, в смысле, здесь конкретно, достижения эстетического результа - это пение. Т.е. "распевка" есть пение в смысле отработки технических приемов, но - не достижения эстетического результата. "Распевка" и "пение" - различные функции и я не нахожу оснований для их смешения.

Но - возможно и обострение данного тезиса посредством иллюстрации в виде указание на спообность попугая издавать звуки, воспринимаемые человеком как слова "попка дурак". При этом вполне очевидно, что попугай при издании данных звуков не мотивирован никакой самокритикой, хотя если "копнуть" глубже, возможно и выделение вынуждающих его к такому подражанию мотивов - и это никаким образом не "самокритика попугая".

Из этого всего возможен вывод, что есть сугубо технический уровень проявления некоей способности - и есть семантический уровень нагружения некоторой технической способности выражения определенного - я его называю "кода" - в смысле передачи таким "кодом" неких "вызовов" или - всех тех сложных функциональных эффектов, развивающихся из способности передачи вызовов.

Тогда следует рассмотреть уже данные ребенку возможности; ребенок явно располагает возможностью инстинктивной "тревожной сигнализации" по имени "плач"; причем в литературном варианте издаваемый им звук может быть выражен в виде набора фонем "а-а-а-а-...", но ребенок никаким образом не осознает возможности использования письменных средств выражения. Следовательно, в виду всего сказанного мы можем говорить о трех вещах:

1) инстинктивное издание звуков,
2) издание звуков в виде подражания, семантически обусловленное некоторой общей или эмоциональной мотивацией; скорее всего, именно к данной категории и относится лепет детей,
3) осмысленное, семантически определенное использование кодового элемента - жеста, слова, надписи, рисунка, - именно для передачи вызова.

В свете данной идеи и появляется возможность рассмотрения некоего характерного ребенку высказывания, например, "не хочу". Насколько осмысленно высказывающий нежелание посредством "не хочу" ребенок осознает морфологический строй этого высказывания? Вполне вероятно, что он просто не выделяет здесь элемент "не+", и не понимает, что в "не буду" присутствует тот же элемент, что и в "не хочу", для него "не хочу" есть просто средство трансляции вызова, целостное в своей совокупности, а не разделенное на элементы.

И отсюда и следует, что мы, в принципе, должны если не раздельно, то обособленно рассматривать технический (фонетический) и семантический уровень коммуникации, а в дополнение к этому, и - умение воплощения семантических установок техническими средствами. И именно в подобном смысле простейший вариант воплощения семантических установок техническими средствами речи - это никак не слоговое представление. Конечно, это моя гипотеза, но она, я понимаю, настолько очевидна...

Другой вопрос, что некоторые направления познания как-то игнорируют этот "фактор биприродности", на мой взгляд - напрасно))

P.S. Мое возражение в том, что технический уровень распознание отдельных фонем, при всей автономности его механизма - это подчиненный уровень, а именно условие такой "подчиненности" исследование либо не признает, либо - оставляет за скобками.

Edited at 2014-12-01 11:21 am (UTC)
From: medgeniva Date: December 1st, 2014 07:25 pm (UTC) (Link)

Об уровне научной достаточности

А что Вы знаете об исследованиях в лингвистике? Что читаете? Как именно установили, что С. Бурлак читать не стоит? Ведь одних анонсов слишком мало для такой сразу резкой оценки - "далеко до уровня научной достаточности". Кто до него, по Вашему, дотягивает?
alisarin From: alisarin Date: December 1st, 2014 09:12 pm (UTC) (Link)

Re: Об уровне научной достаточности

На ваш вопрос такой ответ - человек не лишен права на мнение, вот я его и высказываю. Но почему я делаю такой вывод?

- Именно потому, что, как предлагает лингвистика, я не знаю, кто автор, это такой общий принцип, рассмотрение лингвистических структур предполагает два плана - план выражения и план содержания. Вне данной дихотомии никакой квалифицированный разговор невозможен - ведь возможно сохранение смысла при видоизмененной фонетике, возможно изменение фонетической основы при сохранении смысла. В анонсах А. Маркова сразу бросается в глаза, что в работе С. Бурлак такое разделение не применяется. А, следовательно, в смысле некоторой общей концепции это вряд ли что даст, хотя в частностях - может быть. Иначе говоря, моя оценка основана на том, что упущено некоторое принципиальное основание, без которого невозможно предложить общей схемы функционирования, я бы так определил, голосовой коммуникации.

В лингвистике же можно много что читать, хотя и она лишь на пути к своему становлению, если из классики, то Э. Сепира непременно нужно знать; если интересно, на моем сайте есть подборка тех материалов, которые я понимаю необходимыми для общего знакомства с лингвистической проблематикой)

Edited at 2014-12-01 09:12 pm (UTC)
From: chumakin Date: November 29th, 2014 05:05 pm (UTC) (Link)

про мышление экспертов

"игнорирование" физиологами данных смежных наук распространено на всех спецов всех наук.
Особо ярко это видно на примере физиков, кторые предпочитают заново создавать философию и ее разделы, создавая свои теории вместо чтения учебников и обращения к спецам.
Правда, сами философы не очень рвутся помочь физикам, понять их проблемы...
Проблема освещена в книге Snow "The Two Cultures" 50 лет назад.
Надо в конце-то концов проблему эту решить....
alisarin From: alisarin Date: November 29th, 2014 09:03 pm (UTC) (Link)

Re: про мышление экспертов

Кстати говоря, именно физики и найдут, что на это ответить. Лучшую теорию философского материализма в XX веке предложил именно Гейзенберг!)
From: medgeniva Date: November 30th, 2014 04:41 pm (UTC) (Link)
А меня порадовало, что физиологами подтверждается то, что лингвисты пытаются установить, начиная годов с 30-х прошлого века, - естественные классы фонем. К тому же эксперимент подтверждает физическую реальность этих казалось бы абстрактных языковых единиц.
wolf_kitses From: wolf_kitses Date: November 30th, 2014 10:35 pm (UTC) (Link)
ну да, как об этом писал Леви-Стросс - что культурные формы, связанные с порождением речи, создают дискретность и противопоставление там, где "естественный переход" между ними дал бы континуум. И самое замечательное, что с моделями движений из которых складываются демонстрации животных, всё точно также
virgula_e_ponto From: virgula_e_ponto Date: December 3rd, 2014 09:01 pm (UTC) (Link)
Спасибо. И за статью, и за дискуссию.
16 comments or Leave a comment