Google prueba privacidad con ruido: así nace VaultGemma, su primer modelo de IA que no quiere memorizarte

Google Research ha anunciado VaultGemma, su primer modelo de lenguaje grande (LLM) entrenado con técnicas de privacidad diferencial. El objetivo es reducir la posibilidad de que el sistema memorice y repita datos sensibles utilizados durante el entrenamiento, un problema cada vez más relevante a medida que los modelos de IA requieren más información para mejorar su rendimiento.

Un enfoque distinto para entrenar modelos

Los modelos de IA suelen generar respuestas que no siempre son previsibles. En algunos casos, pueden llegar a reproducir de forma literal fragmentos de los datos usados en su entrenamiento, lo que plantea riesgos de privacidad si incluyen información personal o con derechos de autor. La privacidad diferencial busca mitigar este problema añadiendo “ruido” matemático durante el proceso de aprendizaje, de modo que el modelo sea menos propenso a memorizar ejemplos concretos.

Te recomendamos: Mejores aplicaciones IA en Windows o Linux, inteligencia artificial al poder

El equipo de Google analizó cómo este ruido afecta al rendimiento y estableció lo que denomina leyes de escalado diferencial de la privacidad. En la práctica, encontraron que cuanto más ruido se introduce, menor es la calidad de los resultados, a menos que se aumente el volumen de datos o la capacidad de cómputo disponible.

Así es VaultGemma

VaultGemma se basa en Gemma 2, la familia de modelos abiertos de Google, y cuenta con mil millones de parámetros. Aunque no es un modelo especialmente grande, Google asegura que ofrece un rendimiento similar al de modelos de tamaño equivalente que no incorporan técnicas de privacidad. Según la compañía, este enfoque podría marcar un precedente para el diseño de modelos más seguros en el futuro.

Te recomendamos: IA sin registro: mejores servicios de chatbot para usar sin cuenta

Por el momento, VaultGemma se plantea como un experimento de investigación. Los resultados indican que la privacidad diferencial encaja mejor en modelos más pequeños y especializados, en lugar de los gigantes de propósito general que priorizan el máximo rendimiento.

El modelo ya está disponible con pesos abiertos, lo que significa que cualquiera puede descargarlo y ajustarlo a sus necesidades, siempre bajo una licencia que impide su uso malicioso. Puedes acceder a VaultGemma en Hugging Face.

Fuente