ИИ способен точно определить эмоции человека по голосу

0

Способность выражать свои чувства и эмоции является неотъемлемой частью человеческого общения. Хотя слова играют важную роль в этом процессе, невербальные сигналы, присутствующие в нашем голосе, могут быть не менее значимыми для передачи эмоционального подтекста.

Исследователи из Германии предприняли попытку выяснить, могут ли современные технологии машинного обучения с высокой точностью распознавать эмоции по коротким фрагментам речи.

В рамках своей работы ученые сравнили эффективность трех различных моделей машинного обучения в распознавании базовых эмоций, таких как радость, гнев, печаль, страх, отвращение и нейтральное состояние, по аудиозаписям продолжительностью всего 1,5 секунды. Результаты этого исследования были опубликованы в авторитетном научном журнале Frontiers in Psychology.

Для проведения эксперимента исследователи использовали два набора данных с бессмысленными предложениями, произнесенными актерами на канадском, английском и немецком языках. Это позволило оценить, могут ли модели точно распознавать эмоции независимо от языковых и культурных особенностей, а также семантического содержания речи.

Продолжительность аудиофрагментов была ограничена 1,5 секундами, поскольку, по мнению ученых, этого времени достаточно для того, чтобы человек смог распознать эмоциональную окраску речи, при этом избежав наложения различных эмоций друг на друга.

В ходе исследования были протестированы три различные модели машинного обучения. Первая модель, основанная на глубоких нейронных сетях (DNN), анализировала составляющие звука, такие как частота или высота тона, для выявления скрытых эмоциональных паттернов. Вторая модель, использующая сверточные нейронные сети (CNN), сканировала визуальные представления звуковых дорожек, подобно тому, как человек определяет эмоции по ритму и тембру голоса. Наконец, третья гибридная модель (C-DNN) объединяла оба подхода, применяя как аудио, так и визуальную спектрограмму для прогнозирования эмоций.

Результаты исследования показали, что модели DNN и C-DNN достигли более высокой точности распознавания эмоций по сравнению с моделью CNN, основанной исключительно на визуальных данных. Однако все три модели продемонстрировали точность, сопоставимую с точностью человека в выполнении аналогичной задачи. По мнению исследователей, этот факт может свидетельствовать о том, что люди и машины полагаются на схожие паттерны для распознавания эмоций в речи.

Полученные результаты открывают перспективы для разработки систем, способных мгновенно интерпретировать эмоциональные сигналы и обеспечивать интуитивную обратную связь в ситуациях, где понимание эмоционального контекста имеет решающее значение. Это может найти применение в таких областях, как терапия, технологии межличностного общения и многих других.

Вместе с тем, авторы исследования отмечают некоторые ограничения своей работы, включая использование актерского материала, который может не в полной мере отражать спонтанные эмоции в реальной жизни. Кроме того, они предлагают в будущем изучить аудиофрагменты различной продолжительности, чтобы определить оптимальное время для наиболее точного распознавания эмоций.

Комментарии закрыты