Datos Sintéticos: La Guía Clave de la AEPD

Datos Sintéticos: La Guía Clave de la AEPD
Guía AEPD: Generación de Datos Sintéticos

Exploramos la **Generación de Datos Sintéticos** y la guía de la AEPD para un uso responsable y seguro.

Tabla de Contenidos

Introducción: El Dilema de los Datos y las PET

En la era digital, los datos son el motor de la innovación. Sin embargo, el uso de datos, especialmente datos personales, presenta desafíos significativos en materia de privacidad y cumplimiento normativo. En este contexto, las Tecnologías de Mejora de la Privacidad (PET – Privacy Enhancing Technologies) emergen como herramientas cruciales para permitir el tratamiento, análisis y extracción de información sin exponer datos confidenciales. La **Generación de Datos Sintéticos** es una de estas PETs, que busca ofrecer una alternativa a los datos reales para fines como el entrenamiento de modelos, el análisis o las pruebas de software, manteniendo la privacidad.

La creciente adopción de la **Generación de Datos Sintéticos** plantea preguntas importantes sobre cuándo los datos generados artificialmente pueden considerarse realmente no personales y cómo gestionar los riesgos asociados. Para abordar esta complejidad y ofrecer orientación, la Comisión de Protección de Datos Personales (PDPC) de Singapur publicó recientemente una guía. Dada su relevancia y valor didáctico, la Agencia Española de Protección de Datos (AEPD) ha traducido y publicado esta guía en su propio espacio de divulgación, si bien advierte que el contexto normativo de Singapur no es el del RGPD europeo, y pueden existir diferencias en afirmaciones o términos.

«La **Generación de Datos Sintéticos** es una PET que ofrece un potencial significativo para la innovación, pero su implementación requiere una comprensión clara de los riesgos de privacidad y las mejores prácticas para mitigarlos.»

Este artículo se basa en el contenido de esta guía, que la AEPD considera de especial interés para responsables y encargados de tratamientos, y delegados de protección de datos (DPD). Exploraremos los conceptos clave de la **Generación de Datos Sintéticos** tal como se presentan en este documento, analizaremos su utilidad, los métodos de generación, los riesgos de privacidad asociados (enfoque de re-identificación) y las recomendaciones propuestas para un uso responsable. Aunque el marco normativo difiera del europeo en algunos aspectos, la guía proporciona valiosos conocimientos técnicos y prácticos sobre la **Generación de Datos Sintéticos**.

A continuación, desglosamos los puntos principales de esta guía sobre la **Generación de Datos Sintéticos**, para ofrecer una comprensión clara de sus recomendaciones y el panorama actual de esta tecnología. Al final del artículo, encontrarás un enlace para descargar el documento completo en PDF y profundizar en la información.

La Relevancia de la Guía: PDPC Singapur y la AEPD

La guía que analizamos proviene de la Comisión de Protección de Datos Personales (PDPC) de Singapur. La decisión de la AEPD de traducirla y publicarla subraya el interés global en la **Generación de Datos Sintéticos** y el valor que las autoridades de protección de datos ven en compartir conocimientos sobre esta tecnología, a pesar de las diferencias regulatorias entre jurisdicciones.

El Propósito de la Guía y su Contexto

El propósito principal de la guía de la PDPC es proporcionar buenas prácticas para la **Generación de Datos Sintéticos** de datos estructurados, con el fin de minimizar los riesgos de privacidad asociados. Se basa en un contexto normativo local (Singapur) que difiere del RGPD europeo, lo que implica que ciertas afirmaciones o términos pueden no alinearse completamente con la interpretación y requisitos de las autoridades de la UE o el Comité Europeo de Protección de Datos (EDPB). A pesar de ello, la guía ofrece una perspectiva técnica valiosa sobre la **Generación de Datos Sintéticos**.

El Valor Didáctico y la Traducción de la AEPD

La AEPD ha reconocido el «gran valor didáctico» de la guía de la PDPC, lo que motivó su traducción y publicación. Esto indica que, más allá de las especificidades regulatorias, la guía contiene explicaciones claras y recomendaciones prácticas sobre los aspectos técnicos de la **Generación de Datos Sintéticos** y la gestión de riesgos que son relevantes a nivel general para profesionales de datos y privacidad.

Público Objetivo de la Guía

La guía está dirigida a un público específico que incluye CIOs, CTOs, CDOs, científicos de datos, profesionales de protección de datos y responsables de la toma de decisiones técnicas. Es decir, personas involucradas directamente en la generación, uso y gobernanza de datos, quienes necesitan entender cómo implementar la **Generación de Datos Sintéticos** de manera segura y conforme a las regulaciones.

¿Qué Son los Datos Sintéticos según la Guía?

La guía comienza definiendo claramente qué son los datos sintéticos y cómo se diferencian de otros enfoques.

Definición y Características

Según la guía, los datos sintéticos son datos artificiales generados utilizando un modelo matemático o algoritmo, a menudo basado en IA/ML. El objetivo es que estos datos imiten las características y estructura de un conjunto de datos de origen (real), de modo que el análisis realizado sobre los datos sintéticos produzca resultados similares a los obtenidos con los datos de origen. Los datos sintéticos pueden ser «totalmente sintéticos» o «parcialmente sintéticos» (aunque la guía se centra en los totalmente sintéticos).

La clave es que los datos sintéticos, a diferencia de los datos de origen, contendrán datos diferentes, pero conservarán propiedades estadísticas y la estructura del original.

Datos Sintéticos vs. Anonimización: Una Distinción Crucial

Es crucial distinguir la **Generación de Datos Sintéticos** de las técnicas de anonimización/seudonimización. Mientras que la anonimización modifica datos reales para eliminar identificadores, la **Generación de Datos Sintéticos** crea datos nuevos. Aunque los datos sintéticos *pueden no* considerarse datos personales si el riesgo de re-identificación es nulo, no están exentos de riesgos. La guía destaca la importancia de evaluar el riesgo de re-identificación, que llama «riesgos de privacidad» o «riesgos residuales».

Datos Sintéticos vs. Datos Anónimos

Característica Datos Sintéticos Datos Anónimos
Origen Creados artificialmente por algoritmos. Derivados de datos reales, modificados para eliminar identificadores.
Contenido No contienen información sobre individuos reales (si se generan correctamente). Contienen información sobre individuos reales, pero sin identificadores directos.
Re-identificación El riesgo existe si el modelo de generación es deficiente o si los datos sintéticos son demasiado similares a los reales (replica outliers). El riesgo existe si se pueden enlazar los datos anonimizados con otras fuentes de información.
RGPD/Privacidad Pueden quedar fuera del RGPD si el riesgo de re-identificación es nulo. Si hay riesgo, aún están sujetos. Generalmente fuera del RGPD si la anonimización es robusta y el riesgo de re-identificación es nulo. Si hay riesgo, aún están sujetos (pseudonimización).

Mientras que la anonimización modifica los datos reales, la **Generación de Datos Sintéticos** crea un conjunto de datos completamente nuevo. La clave, como veremos, es si ese nuevo conjunto de datos puede, de alguna manera, vincularse a los individuos originales.

Métodos y Técnicas para la Generación de Datos Sintéticos

La **Generación de Datos Sintéticos** no es un proceso único; existen diversas técnicas, a menudo basadas en modelos estadísticos o de aprendizaje automático:

  • Métodos Estadísticos: Se analizan las propiedades estadísticas del conjunto de datos real (distribuciones, correlaciones, covarianzas) y luego se generan datos nuevos que replican estas propiedades. Son métodos más simples pero pueden no capturar relaciones complejas.
  • Modelos Basados en Machine Learning: Técnicas más avanzadas utilizan modelos de IA, como las Redes Generativas Antagónicas (GANs) o los modelos variacionales automáticos (VAEs), para «aprender» la distribución de los datos reales y luego generar datos nuevos que provienen de esa distribución aprendida. Estos modelos pueden capturar patrones más complejos y generar datos que se parecen más a los reales, lo que también puede aumentar el riesgo si no se controlan adecuadamente.
  • Modelos Basados en Reglas: En algunos casos, los datos sintéticos se generan siguiendo reglas predefinidas basadas en el conocimiento del dominio, en lugar de aprender de un conjunto de datos real.

Ejemplo: Para generar datos sintéticos de pacientes, un modelo podría aprender las distribuciones de edad, género, enfermedades comunes y cómo se relacionan entre sí en un conjunto de datos real de un hospital. Luego, podría crear «pacientes» sintéticos con combinaciones plausibles de estas características, sin que ninguno de esos pacientes sintéticos corresponda a un paciente real.

La Guía de la AEPD: Claridad en el Marco Regulatorio de la **Generación de Datos Sintéticos**

Ante el auge de la **Generación de Datos Sintéticos** y la necesidad de utilizarla respetando el RGPD, la AEPD ha intervenido para ofrecer un marco de referencia.

¿Por Qué una Guía de la AEPD sobre este Tema?

La **Generación de Datos Sintéticos** es una técnica que se presenta a menudo como una solución para evitar los problemas de privacidad. Sin embargo, no existe una garantía inherente de que los datos generados artificialmente estén completamente libres de riesgos de privacidad. La AEPD, como autoridad de control en protección de datos, ha visto la necesidad de clarificar bajo qué circunstancias los datos sintéticos pueden considerarse o no datos personales, y qué medidas deben tomar las organizaciones para generar y utilizar estos datos de forma lícita y segura, en línea con los principios del RGPD (como la protección de datos desde el diseño y por defecto).

¿Cuándo los Datos Sintéticos Siguen Siendo Datos Personales?

El punto central de la guía de la AEPD es que la condición de «dato personal» no depende de si el dato es real o generado artificialmente, sino de si permite identificar a un individuo. Los datos sintéticos *serán considerados datos personales* si existe un riesgo no insignificante de que, mediante su uso, puedan re-identificarse a las personas del conjunto de datos real original o a las personas representadas por los datos sintéticos. Esto puede ocurrir si:

  • Los datos sintéticos replican fielmente a individuos únicos o atípicos (outliers) del conjunto de datos real.
  • El modelo de generación no introduce suficiente variabilidad o ruido.
  • Los datos sintéticos pueden combinarse con otras fuentes de información para identificar a individuos.

La AEPD enfatiza que la **Generación de Datos Sintéticos** por sí sola no garantiza que los datos resultantes dejen de ser personales. Es necesario evaluar el riesgo de re-identificación en cada caso concreto.

El Riesgo Crítico de Re-identificación

El riesgo de re-identificación es la principal preocupación. Aunque los datos sintéticos no contengan los datos reales de un individuo, si el modelo de generación es demasiado «bueno» replicando los patrones o si el conjunto de datos real original contenía individuos muy distintivos, los datos sintéticos generados podrían, en la práctica, permitir inferir información sobre personas reales o incluso «re-identificar» a individuos únicos del conjunto original. Los atacantes podrían intentar vincular los datos sintéticos con otras bases de datos públicas o filtradas para identificar a personas. La guía de la AEPD proporciona criterios para evaluar este riesgo.

Recomendaciones y Criterios de la AEPD

La guía de la AEPD ofrece recomendaciones clave para aquellos que realizan o utilizan la **Generación de Datos Sintéticos**:

  • Enfoque Basado en el Riesgo: Realizar una evaluación exhaustiva del riesgo de re-identificación para cada conjunto de datos sintéticos generado, considerando la técnica de generación, la naturaleza de los datos originales y el contexto de uso de los datos sintéticos.
  • Medidas Técnicas y Organizativas: Implementar medidas técnicas robustas durante el proceso de generación para minimizar el riesgo (ej. añadir ruido, no replicar outliers, controlar la similitud con los datos originales).
  • Control del Proceso: Documentar el proceso de **Generación de Datos Sintéticos**, incluyendo la técnica utilizada y la evaluación de riesgos.
  • Minimización de Datos: Aunque se generen datos, el proceso debe partir idealmente de un conjunto de datos real ya minimizado.

La guía de la AEPD es un recurso invaluable para entender cómo abordar la **Generación de Datos Sintéticos** desde una perspectiva de cumplimiento y responsabilidad, asegurando que la innovación no comprometa la privacidad.

Beneficios y Casos de Uso de la **Generación de Datos Sintéticos**

Si se utiliza de forma responsable y evaluando adecuadamente los riesgos, la **Generación de Datos Sintéticos** ofrece un potencial considerable.

Impulso a la Innovación y el Desarrollo (I+D)

La principal ventaja es permitir el acceso a conjuntos de datos con características similares a las de los datos reales, pero con menor riesgo de privacidad. Esto acelera la investigación, el desarrollo de algoritmos (especialmente en IA y Machine Learning) y las pruebas de sistemas que requieren grandes volúmenes de datos complejos.

Ejemplos Claros de Aplicación

La **Generación de Datos Sintéticos** tiene aplicaciones prácticas en diversos sectores:

  • Salud: Crear conjuntos de datos sintéticos de pacientes para entrenar modelos de diagnóstico por imágenes, simular ensayos clínicos o investigar patrones de enfermedades sin compartir historiales médicos reales.
  • Finanzas: Generar datos sintéticos de transacciones para probar sistemas de detección de fraude, desarrollar modelos de riesgo crediticio o simular escenarios de mercado.
  • Educación: Crear datos sintéticos de estudiantes para desarrollar herramientas de aprendizaje adaptativo o analizar el rendimiento educativo sin exponer datos reales de alumnos.
  • Desarrollo de Software: Generar datos sintéticos para probar aplicaciones y sistemas que manejan datos personales, asegurando su robustez sin necesidad de entornos de prueba con datos reales.
  • Investigación Académica: Permitir a investigadores acceder a datos con patrones del mundo real para estudiar fenómenos complejos sin las restricciones de acceso a datos sensibles.

Superando Barreras de Acceso a Datos Sensibles

En muchos casos, el acceso a datos reales está limitado por regulaciones, acuerdos de confidencialidad o simplemente por el riesgo percibido. La **Generación de Datos Sintéticos**, cuando es robusta desde la perspectiva de la privacidad, puede derribar estas barreras, facilitando la colaboración y el intercambio de datos (sintéticos) entre organizaciones e investigadores, impulsando así la innovación en campos que dependen en gran medida de los datos.

Desafíos y Consideraciones Éticas en la **Generación de Datos Sintéticos**

A pesar de sus beneficios, la **Generación de Datos Sintéticos** no es una solución mágica y presenta desafíos importantes que la guía de la AEPD ayuda a identificar.

El Equilibrio entre Utilidad y Privacidad

Existe una tensión inherente en la **Generación de Datos Sintéticos**: para que los datos sintéticos sean *útiles*, deben parecerse estadísticamente a los datos reales y capturar sus relaciones complejas. Sin embargo, cuanto más se parecen a los datos reales, mayor es el riesgo de que puedan ser utilizados para re-identificar a individuos. Lograr el equilibrio correcto entre utilidad (fidelity) y privacidad (privacy) es el principal desafío técnico y ético.

Calidad y Validación de los Datos Sintéticos

Asegurar que los datos sintéticos generados sean de alta calidad y reflejen con precisión las propiedades del conjunto de datos real es crucial para que sean útiles. Se necesitan métricas y métodos de validación rigurosos para evaluar si un conjunto de datos sintéticos es adecuado para un propósito específico. Unos datos sintéticos que no capturen las relaciones importantes del conjunto real simplemente no servirán para entrenar modelos de IA o realizar análisis significativos.

Aspectos Éticos y Sesgos

Los modelos utilizados para la **Generación de Datos Sintéticos** pueden heredar y perpetuar los sesgos presentes en el conjunto de datos real original. Si el conjunto de datos de entrenamiento real está sesgado (por ejemplo, infrarepresenta a ciertos grupos demográficos), los datos sintéticos generados también lo estarán. Esto plantea importantes cuestiones éticas sobre la equidad y la no discriminación en el uso de datos sintéticos, especialmente si se utilizan para entrenar sistemas de IA que toman decisiones sobre personas.

El Futuro de la **Generación de Datos Sintéticos**

La **Generación de Datos Sintéticos** es un campo en rápida evolución, con un potencial creciente para transformar la forma en que trabajamos con los datos.

Avances en Técnicas de Generación

La investigación continúa desarrollando técnicas de **Generación de Datos Sintéticos** más sofisticadas, capaces de capturar relaciones más complejas en los datos, manejar diferentes tipos de datos (series temporales, datos geográficos, datos gráficos) y ofrecer mayores garantías de privacidad.

Consolidación del Marco Regulatorio

La guía de la AEPD es un paso importante, y es probable que otras autoridades de protección de datos y órganos reguladores ofrezcan su propia orientación o normativas sobre la **Generación de Datos Sintéticos** en el futuro. Esto ayudará a consolidar el marco legal y a proporcionar mayor seguridad jurídica a las organizaciones que deseen utilizar esta técnica.

Conclusión: Una Herramienta con Enorme Potencial, Usada con Responsabilidad

La **Generación de Datos Sintéticos** emerge como una herramienta poderosa y cada vez más relevante en la era de la IA y el Big Data. Ofrece la posibilidad de desbloquear el potencial de los datos para la innovación, la investigación y el desarrollo, superando algunas de las barreras de privacidad y acceso asociadas a los datos personales reales.

Sin embargo, como subraya la guía de la AEPD, la **Generación de Datos Sintéticos** no es una solución automática para los problemas de privacidad. Requiere un enfoque riguroso basado en el riesgo, una evaluación cuidadosa del potencial de re-identificación de los datos generados y la implementación de medidas técnicas y organizativas adecuadas. El equilibrio entre la utilidad de los datos y la garantía de la privacidad es el desafío central.

Al seguir las recomendaciones de la AEPD y abordar los desafíos de la **Generación de Datos Sintéticos** de manera proactiva y ética, las organizaciones pueden aprovechar su enorme potencial para impulsar la innovación de manera responsable, construyendo un futuro donde el avance tecnológico y la protección de la privacidad puedan coexistir.

Publicado el 4/22/2025

Compartir este artículo: