Multi-CartoonGAN con Normalización de Capa de Instancia Adaptativa Condicional para la Traducción Artística de Rostros Condicional
Autores: Komatsu, Rina; Gonsalves, Tad
Idioma: Inglés
Editor: MDPI
Año: 2022
Disponible con Suscripción Virtualpro
Artículos
Categoría
Ingeniería y Tecnología
Licencia
Atribución – Compartir igual
Consultas: 4
Citaciones: Sin citaciones
En CycleGAN, se estableció una arquitectura de traducción de imagen a imagen sin el uso de conjuntos de datos emparejados mediante la utilización de pérdida adversarial y de consistencia de ciclo. El éxito de CycleGAN fue seguido por numerosos estudios que propusieron nuevos modelos de traducción. Por ejemplo, StarGAN funciona como un modelo de traducción multi-dominio basado en un par generador-discriminador único, mientras que U-GAT-IT tiene como objetivo cerrar la gran brecha de traducción entre rostros y anime adaptando su normalización original al proceso. Sin embargo, la construcción de modelos de traducción robustos y condicionales requiere compensaciones cuando se consideran los costos computacionales de entrenamiento en unidades de procesamiento gráfico (GPUs). Esto se debe a que, si los diseñadores intentan implementar modelos condicionales con capas complejas de redes neuronales convolucionales (CNN) y funciones de normalización, las GPUs necesitarán asegurar grandes cantidades de memoria cuando el modelo comience a entrenar. Este estudio tiene como objetivo resolver este problema de compensación mediante el desarrollo de Multi-CartoonGAN, que es una arquitectura de CartoonGAN mejorada que puede generar imágenes traducidas condicionales y adaptarse a grandes brechas de características entre los dominios de origen y destino. Para lograr esto, Multi-CartoonGAN reduce el costo computacional utilizando un VGGNet preentrenado para calcular la pérdida de consistencia en lugar de reutilizar el generador. Además, informamos sobre el desarrollo del proceso de normalización de capa-instante adaptativa condicional (CAdaLIN) para usar con nuestro modelo y hacerlo robusto a traducciones de características únicas. Realizamos experimentos extensos utilizando Multi-CartoonGAN para traducir imágenes de rostros del mundo real en tres estilos artísticos diferentes: retrato, anime y caricatura. Un análisis de las imágenes traducidas visualizadas y una comparación de la computación de la GPU muestran que nuestro modelo es capaz de realizar traducciones con características de estilo únicas que siguen las entradas condicionales y a un costo computacional reducido de la GPU durante el entrenamiento.
Descripción
En CycleGAN, se estableció una arquitectura de traducción de imagen a imagen sin el uso de conjuntos de datos emparejados mediante la utilización de pérdida adversarial y de consistencia de ciclo. El éxito de CycleGAN fue seguido por numerosos estudios que propusieron nuevos modelos de traducción. Por ejemplo, StarGAN funciona como un modelo de traducción multi-dominio basado en un par generador-discriminador único, mientras que U-GAT-IT tiene como objetivo cerrar la gran brecha de traducción entre rostros y anime adaptando su normalización original al proceso. Sin embargo, la construcción de modelos de traducción robustos y condicionales requiere compensaciones cuando se consideran los costos computacionales de entrenamiento en unidades de procesamiento gráfico (GPUs). Esto se debe a que, si los diseñadores intentan implementar modelos condicionales con capas complejas de redes neuronales convolucionales (CNN) y funciones de normalización, las GPUs necesitarán asegurar grandes cantidades de memoria cuando el modelo comience a entrenar. Este estudio tiene como objetivo resolver este problema de compensación mediante el desarrollo de Multi-CartoonGAN, que es una arquitectura de CartoonGAN mejorada que puede generar imágenes traducidas condicionales y adaptarse a grandes brechas de características entre los dominios de origen y destino. Para lograr esto, Multi-CartoonGAN reduce el costo computacional utilizando un VGGNet preentrenado para calcular la pérdida de consistencia en lugar de reutilizar el generador. Además, informamos sobre el desarrollo del proceso de normalización de capa-instante adaptativa condicional (CAdaLIN) para usar con nuestro modelo y hacerlo robusto a traducciones de características únicas. Realizamos experimentos extensos utilizando Multi-CartoonGAN para traducir imágenes de rostros del mundo real en tres estilos artísticos diferentes: retrato, anime y caricatura. Un análisis de las imágenes traducidas visualizadas y una comparación de la computación de la GPU muestran que nuestro modelo es capaz de realizar traducciones con características de estilo únicas que siguen las entradas condicionales y a un costo computacional reducido de la GPU durante el entrenamiento.