Red de atención guiada multi-escala para el conteo de multitudes
Autores: Li, Pengfei; Zhang, Min; Wan, Jian; Jiang, Ming
Idioma: Inglés
Editor: Hindawi
Año: 2021
Disponible con Suscripción Virtualpro
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 14
Citaciones: Sin citaciones
El método de conteo de multitudes basado en CNN utiliza pirámide de imágenes y conexión densa para fusionar características y resolver los problemas de multiescala y pérdida de información. Sin embargo, estas operaciones conducen a redundancia de información y confusión entre la multitud y la información de fondo. En este documento, proponemos una red de atención guiada multi-escala (MGANet) para resolver los problemas mencionados anteriormente. Específicamente, las características de múltiples capas de la red se fusionan mediante un enfoque de arriba hacia abajo para obtener información multiescala e información de contexto. El mecanismo de atención se utiliza para guiar las características adquiridas de cada capa en el espacio y el canal para que la red preste más atención a la multitud en la imagen, ignore la información irrelevante y se integre aún más para obtener el mapa de densidad final de alta calidad. Además, proponemos una función de pérdida de conteo que combina la pérdida SSIM, la pérdida MAE y la pérdida MSE para lograr una convergencia efectiva de la red.
Descripción
El método de conteo de multitudes basado en CNN utiliza pirámide de imágenes y conexión densa para fusionar características y resolver los problemas de multiescala y pérdida de información. Sin embargo, estas operaciones conducen a redundancia de información y confusión entre la multitud y la información de fondo. En este documento, proponemos una red de atención guiada multi-escala (MGANet) para resolver los problemas mencionados anteriormente. Específicamente, las características de múltiples capas de la red se fusionan mediante un enfoque de arriba hacia abajo para obtener información multiescala e información de contexto. El mecanismo de atención se utiliza para guiar las características adquiridas de cada capa en el espacio y el canal para que la red preste más atención a la multitud en la imagen, ignore la información irrelevante y se integre aún más para obtener el mapa de densidad final de alta calidad. Además, proponemos una función de pérdida de conteo que combina la pérdida SSIM, la pérdida MAE y la pérdida MSE para lograr una convergencia efectiva de la red.