Uno de los problemas más comunes en Computer Vision es la falta de imágenes a la hora de entrenar los modelos. En deep learning se requiere un gran número de datos para que las redes neuronales aprendan las características relevantes de los inputs y después puedan realizar el proceso de inferencia de forma correcta, ya que cuando los modelos se entrenan con ejemplos limitados no son capaces de generalizar a los datos no vistos. Incluso si se utilizan modelos pre-entrenados (transfer learning), muchas veces las imágenes para los casos particulares siguen siendo insuficientes y el modelo no se entrena correctamente.
En Keepler nos hemos encontrado con este reto sobre todo en proyectos de detección de objetos en imágenes, más concretamente en detección de anomalías. Ante este problema hemos visto la necesidad buscar métodos para generar imágenes sintéticas (data augmentation) con el objetivo de hacer viables proyectos con un dataset reducido de imágenes. En concreto hemos investigado dos técnicas.
- Generación de imágenes mediante procedimientos clásicos de data augmentation: distorsiones, rotaciones, cambios de color etc. de las imágenes originales.
- Generación de imágenes a partir de GANs (Generative Adversarial Networks); concretamente uso de Cycle GANs para realizar un cambio de contexto (style transfer) a las imágenes originales y así generar nuevas.
La generación de imágenes o de cualquier tipo de dato está a la orden del día en un gran número de proyectos donde los datos son escasos. El aumento de la variabilidad de los datos de entrenamiento permite una mayor generalización de los modelos; además puede reducir el coste de la recogida y el etiquetado de datos.
A lo largo del siguiente white paper que puedes descargar, veremos en detalle los métodos utilizados, algunos simples y otros más complejos, para producir imágenes sintéticas necesarias en el entrenamiento de modelos de computer vision.
Descarga gratis este white paper sobre Aumento de Datos 👇

Título: Cómo utilizar el aumento de datos cuando se tienen datos limitados
Autoras: Ángela García, Data Scientist en Keepler & Adriana A. Bogdan, Data Scientist en Keepler
Deja tu comentario