Redes de creencia profunda aleatorias para reconocer las emociones a partir de las señales del habla
Autores: Guihua, Wen; Huihui, Li; Jubing, Huang; Danyang, Li; Eryang, Xun
Idioma: Inglés
Editor: Hindawi
Año: 2017
Disponible con Suscripción Virtualpro
Artículos
2017
Redes de creencia profunda aleatorias para reconocer las emociones a partir de las señales del hablaCategoría
Ingeniería y Tecnología
Licencia
Atribución – Compartir igual
Consultas: 9
Citaciones: Sin citaciones
En la actualidad, las emociones humanas pueden reconocerse a partir de las señales del habla utilizando métodos de aprendizaje automático; sin embargo, se enfrentan al reto de la menor precisión de reconocimiento en las aplicaciones reales debido a la falta de capacidad de representación rica. Las redes de creencia profunda (DBN) pueden descubrir automáticamente los múltiples niveles de representación en las señales del habla. Para aprovechar todas sus ventajas, este artículo presenta un método de redes de creencias profundas aleatorias (RDBN) para el reconocimiento de las emociones del habla. En primer lugar, extrae las características de bajo nivel de la señal de voz de entrada y luego las aplica para construir muchos subespacios aleatorios. Cada subespacio aleatorio se proporciona a la DBN para que produzca las características de nivel superior como entrada del clasificador para obtener una etiqueta de emoción. Todas las etiquetas de emoción emitidas se fusionan a través de la votación por mayoría para decidir la etiqueta de emoción final para la señal de voz de entrada. Los resultados experimentales realizados en bases de datos de emociones del habla de referencia muestran que RDBN tiene una mayor precisión que los métodos comparados para el reconocimiento de emociones del habla.
Descripción
En la actualidad, las emociones humanas pueden reconocerse a partir de las señales del habla utilizando métodos de aprendizaje automático; sin embargo, se enfrentan al reto de la menor precisión de reconocimiento en las aplicaciones reales debido a la falta de capacidad de representación rica. Las redes de creencia profunda (DBN) pueden descubrir automáticamente los múltiples niveles de representación en las señales del habla. Para aprovechar todas sus ventajas, este artículo presenta un método de redes de creencias profundas aleatorias (RDBN) para el reconocimiento de las emociones del habla. En primer lugar, extrae las características de bajo nivel de la señal de voz de entrada y luego las aplica para construir muchos subespacios aleatorios. Cada subespacio aleatorio se proporciona a la DBN para que produzca las características de nivel superior como entrada del clasificador para obtener una etiqueta de emoción. Todas las etiquetas de emoción emitidas se fusionan a través de la votación por mayoría para decidir la etiqueta de emoción final para la señal de voz de entrada. Los resultados experimentales realizados en bases de datos de emociones del habla de referencia muestran que RDBN tiene una mayor precisión que los métodos comparados para el reconocimiento de emociones del habla.