logo móvil

Multi-CartoonGAN con Normalización de Capa de Instancia Adaptativa Condicional para la Traducción Artística de Rostros Condicional

Autores: Komatsu, Rina; Gonsalves, Tad

Idioma: Inglés

Editor: MDPI

Año: 2022

Disponible con Suscripción Virtualpro

Artículos


Categoría

Ingeniería y Tecnología

Licencia

Atribución – Compartir igual

Consultas: 4

Citaciones: Sin citaciones


Descripción
En CycleGAN, se estableció una arquitectura de traducción de imagen a imagen sin el uso de conjuntos de datos emparejados mediante la utilización de pérdida adversarial y de consistencia de ciclo. El éxito de CycleGAN fue seguido por numerosos estudios que propusieron nuevos modelos de traducción. Por ejemplo, StarGAN funciona como un modelo de traducción multi-dominio basado en un par generador-discriminador único, mientras que U-GAT-IT tiene como objetivo cerrar la gran brecha de traducción entre rostros y anime adaptando su normalización original al proceso. Sin embargo, la construcción de modelos de traducción robustos y condicionales requiere compensaciones cuando se consideran los costos computacionales de entrenamiento en unidades de procesamiento gráfico (GPUs). Esto se debe a que, si los diseñadores intentan implementar modelos condicionales con capas complejas de redes neuronales convolucionales (CNN) y funciones de normalización, las GPUs necesitarán asegurar grandes cantidades de memoria cuando el modelo comience a entrenar. Este estudio tiene como objetivo resolver este problema de compensación mediante el desarrollo de Multi-CartoonGAN, que es una arquitectura de CartoonGAN mejorada que puede generar imágenes traducidas condicionales y adaptarse a grandes brechas de características entre los dominios de origen y destino. Para lograr esto, Multi-CartoonGAN reduce el costo computacional utilizando un VGGNet preentrenado para calcular la pérdida de consistencia en lugar de reutilizar el generador. Además, informamos sobre el desarrollo del proceso de normalización de capa-instante adaptativa condicional (CAdaLIN) para usar con nuestro modelo y hacerlo robusto a traducciones de características únicas. Realizamos experimentos extensos utilizando Multi-CartoonGAN para traducir imágenes de rostros del mundo real en tres estilos artísticos diferentes: retrato, anime y caricatura. Un análisis de las imágenes traducidas visualizadas y una comparación de la computación de la GPU muestran que nuestro modelo es capaz de realizar traducciones con características de estilo únicas que siguen las entradas condicionales y a un costo computacional reducido de la GPU durante el entrenamiento.

Documentos Relacionados

Temas Virtualpro