Inteligencia artificial

Llega Nemotron 3 Nano Omni, un nuevo modelo abierto de NVIDIA que une visión, audio y lenguaje para agentes de IA

NVIDIA lanza un modelo multimodal abierto pensado para agentes de IA que procesan vídeo, audio, imágenes y texto con menos coste

NVIDIA ha anunciado Nemotron 3 Nano Omni, un nuevo modelo abierto diseñado para unificar en un solo sistema tareas de visión, audio y lenguaje que hasta ahora solían repartirse entre varios modelos distintos. La compañía lo presenta como una pieza pensada para la nueva generación de agentes de IA, especialmente en flujos como uso de interfaces, análisis documental y razonamiento sobre audio y vídeo.

La idea de fondo es bastante clara. Muchos sistemas agénticos actuales siguen encadenando modelos separados para interpretar pantallas, transcribir voz, analizar imágenes o responder en lenguaje natural. Ese enfoque añade latencia, eleva el coste y fragmenta el contexto. Con Nemotron 3 Nano Omni, NVIDIA quiere resolver parte de ese problema concentrando la percepción multimodal en un único modelo con pesos abiertos y capacidad de despliegue flexible.

Nemotron 3 Nano Omni actúa como ojos y oídos para el agente

Según la compañía, el modelo puede trabajar con texto, imágenes, audio, vídeo, documentos, gráficos e interfaces gráficas como entrada, y devolver texto como salida. Técnicamente, se apoya en una arquitectura híbrida MoE de 30B-A3B, con contexto de 256K, y está pensado para funcionar como subagente de percepción junto a otros modelos de la familia Nemotron o incluso junto a modelos propietarios de terceros.

NVIDIA asegura además que Nemotron 3 Nano Omni logra hasta 9 veces más rendimiento que otros modelos omni abiertos comparables en escenarios con el mismo nivel de interactividad, manteniendo una buena precisión en tareas complejas de inteligencia documental y comprensión de audio y vídeo. Como suele ocurrir con este tipo de anuncios, habrá que ver cómo se traduce eso en pruebas independientes, pero el mensaje es claro: la firma quiere ganar terreno también en el software abierto para agentes, no solo en hardware.

La compañía ya cita adopción o evaluación por parte de empresas como Foxconn, Palantir, Oracle, Dell, Docusign e Infosys, entre otras. Otro punto importante es que el modelo se distribuye con pesos, datasets y técnicas de entrenamiento abiertas, lo que permite ajustarlo a necesidades concretas y desplegarlo en entornos locales, soberanos o regulados, desde sistemas Jetson hasta estaciones DGX o la nube.

Te interesa 👉 Las mejores tarjetas gráficas calidad-precio

Con este lanzamiento, NVIDIA refuerza una estrategia cada vez más visible para la empresa. Ya no quiere limitarse a vender aceleradores para IA, sino construir también una capa de modelos y herramientas que facilite crear agentes más rápidos, más baratos y con menos piezas intermedias en el proceso.

Siguiente La edición con IA para Fotos en iOS 27 y macOS 27 estaría en los planes de Apple, aunque con riesgos de retraso »

Anterior « El Tensor G6 podría llegar con una GPU de 2021 y volver a dejar a Google en una posición incómoda frente a la competencia

MSI Prestige 13 AI+ A3MG Review en español (Análisis completo)

Os presentamos el nuevo MSI Prestige 13 AI+ A3MG, evolución o variante de la anterior…

21 minutos atrás

Portátiles y ordenadores

Este portátil gaming de Lenovo cuenta con una RTX 5050 y cuesta menos que nunca

Los portátiles gaming se han posicionado como una gran alternativa dentro del mundillo del PC.…

1 hora atrás

Software

OneDrive bloqueará las capturas de pantalla en PDF sensibles, pero solo si se abren con Microsoft Edge

Microsoft prepara una nueva medida de seguridad para OneDrive y SharePoint. La plataforma podrá bloquear…

2 horas atrás