Detección facial y segmentación basada en Mask R-CNN mejorado.
Autores: Lin, Kaihan; Zhao, Huimin; Lv, Jujian; Li, Canyao; Liu, Xiaoyong; Chen, Rongjun; Zhao, Ruoyan
Idioma: Inglés
Editor: Hindawi
Año: 2020
Disponible con Suscripción Virtualpro
Artículos
Categoría
Matemáticas
Licencia
Atribución – Compartir igual
Consultas: 9
Citaciones: Sin citaciones
Las redes neuronales convolucionales profundas han sido aplicadas con éxito recientemente a la detección de rostros. A pesar de lograr un progreso notable, la mayoría de los métodos de detección existentes solo localizan cada rostro utilizando un cuadro delimitador, lo que no permite segmentar cada rostro de la imagen de fondo de manera simultánea. Para superar esta limitación, presentamos un método de detección y segmentación de rostros basado en Mask R-CNN mejorado, llamado G-Mask, que incorpora la detección y segmentación de rostros en un solo marco con el objetivo de obtener información más detallada del rostro. Específicamente, en este método propuesto, se utiliza ResNet-101 para extraer características, se utiliza RPN para generar RoIs, y RoIAlign preserva fielmente las ubicaciones espaciales exactas para generar una máscara binaria a través de la Fully Convolution Network (FCN). Además, se utiliza la Intersección Generalizada sobre la Unión (GIoU) como función de pérdida de cuadro delimitador
Descripción
Las redes neuronales convolucionales profundas han sido aplicadas con éxito recientemente a la detección de rostros. A pesar de lograr un progreso notable, la mayoría de los métodos de detección existentes solo localizan cada rostro utilizando un cuadro delimitador, lo que no permite segmentar cada rostro de la imagen de fondo de manera simultánea. Para superar esta limitación, presentamos un método de detección y segmentación de rostros basado en Mask R-CNN mejorado, llamado G-Mask, que incorpora la detección y segmentación de rostros en un solo marco con el objetivo de obtener información más detallada del rostro. Específicamente, en este método propuesto, se utiliza ResNet-101 para extraer características, se utiliza RPN para generar RoIs, y RoIAlign preserva fielmente las ubicaciones espaciales exactas para generar una máscara binaria a través de la Fully Convolution Network (FCN). Además, se utiliza la Intersección Generalizada sobre la Unión (GIoU) como función de pérdida de cuadro delimitador