ПРИМЕНЕНИЕ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ РЕЧИ
Аннотация
В работе рассмотрено решение задачи распознавания эмоциональной окраски речи на основе построения и исследования нейросетевой модели. Проанализированы типовые методы классификации эмоций. Для решения задачи обоснована целесообразность использования категориальной модели представления эмоций как наиболее эффективной. В качестве объекта исследований выступают аудиозаписи человеческой речи. Для анализа значений параметров аудиозаписей, таких как мел-кепстральные коэффициенты, спектрограммы и хроматограммы, предложено использовать нейросетевую модель. В качестве исходных данных для анализа и нейросетевого моделирования использовано несколько наборов англоязычных аудиоданных, найденных на платформе kaggle. Исходный набор данных выделяет семь классов (эмоций): счастье, удивление, нейтральная эмоция, гнев, печаль, страх, отвращение. Общее число аудиозаписей в сформированном наборе составляет 48648. Исходные данные были представлены в виде аудиозаписей различной длины. Для обучения нейросетевой модели из аудиозаписей были извлечены характерные признаки и проведена аугментация. По исходным данным рассчитаны значения 162 параметров аудиозаписей с получением единой таблицы данных для анализа. Описан процесс подготовки данных к анализу и моделированию. Проведено разбиение данных на обучающее и тестовое множества, а также построение и исследование нейросетевой модели в виде сверточной нейронной сети. Для оценки эффективности построенной модели произведена оценка точности, полноты и F-меры построенной модели. Результаты исследований показали, что построенная модель является достаточно эффективной и может быть использована в составе интеллектуальной системы поддержки принятия решений.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.