Las big tech siguen explorando los límites de la inteligencia artificial para mejorar la comprensión del contexto en el que se mueven sus usuarios. Ahora, un equipo de investigadores de Apple ha hecho públicos los resultados de un estudio que demuestra cómo los modelos de lenguaje son capaces de deducir con exactitud qué tarea física se está realizando, simplemente cruzando datos de sensores de movimiento con información auditiva procesada.

La investigación plantea un enfoque técnico interesante. En este caso, en lugar de alimentar a la IA con grabaciones de audio directas, lo que podría suponer un riesgo para la privacidad, el sistema utiliza descripciones textuales del sonido. Estas etiquetas, generadas por modelos más pequeños, se combinan con la información del acelerómetro y el giroscopio. Esto permite al modelo de lenguaje interprete la situación global.
Apple logra una capacidad de deducción casi humana sin entrenamiento previo
Para validar esta teoría, los ingenieros de Cupertino utilizaron el extenso conjunto de datos Ego4D, que contiene grabaciones en primera persona de situaciones reales. El experimento se centró en identificar 12 actividades cotidianas muy variadas. Se abarcaron desde tareas domésticas como lavar los platos, cocinar o pasar la aspiradora, hasta actividades de ocio y deporte como leer, jugar con mascotas o levantar pesas.
Lo que más llama la atención del estudio es la eficiencia de los modelos probados, como Gemini y Qwen. Estos lograron identificar correctamente la actividad mediante la técnica zero-shot, es decir, sin haber sido entrenados específicamente para reconocer esos patrones de antemano. La IA demostró ser capaz de inferir la acción basándose únicamente en la lógica de los datos combinados, mejorando su precisión notablemente cuando se le ofrecía un solo ejemplo de referencia.
Te interesa 👉 Los modelos de IA locales del iPhone podrían ser la gran victoria de Apple Intelligence
Este avance sugiere que los futuros relojes inteligentes o el iPhone podrían ofrecer un seguimiento de la salud y la actividad mucho más detallado. Al procesar estas señales mediante un LLM, los dispositivos podrían entender contextos complejos donde los sensores tradicionales fallan. Todo ello optimizando recursos y memoria al no requerir modelos pesados y específicos para cada tipo de acción humana.