AI

Aprendizaje IA de la Semana: 1 de junio de 2026

Resumen semanal de 7 recursos, herramientas y artículos sobre inteligencia artificial que guardé esta semana.

Aprendizaje semanal de IA

Esta semana trae actualizaciones significativas en modelos de vanguardia (Claude Opus 4.8, Nemotron 3 Ultra, Qwen3.7-plus), el movimiento de Anthropic hacia salida a bolsa, el rediseño unificado de Microsoft Copilot y una sesión profunda de YC Paper Club sobre inferencia, world models y escalado bajo restricción de datos.

🧠

Modelos

Thread by @ArtificialAnlys on Thread Reader App

El hilo recopila los anuncios clave de Computex: NVIDIA presentó Nemotron 3 Ultra, su modelo más grande hasta la fecha con 550B parámetros (55B activos mediante MoE). Paralelamente, Anthropic lanzó Claude Opus 4.5, que se sitúa como #2 en el Intelligence Index de Artificial Analysis (70 puntos), empatando con GPT-5.1 (high) y solo por detrás de Gemini 3 Pro (73). Opus 4.5 destaca en coding (+16 pp en LiveCodeBench), tareas agenticas y razonamiento de contexto largo, aunque usa 60% más tokens que Opus 4.1 para completar las evaluaciones. En el índice de omnisciencia (conocimiento embebido y alucinaciones), Opus 4.5 queda segundo con 43% de precisión y 58% de tasa de alucinación, solo superado por Gemini 3 Pro Preview.

Qwen

Qwen anuncia Qwen3.7-plus, una actualización de su familia de modelos. La página del blog (cuyo contenido técnico no se pudo extraer completamente) presenta las mejoras y capacidades de esta versión, continuando la cadencia de lanzamientos de Alibaba en modelos abiertos multilingües y de razonamiento.

Presentando a Claude Opus 4.8

Anthropic lanza Claude Opus 4.8, una actualización incremental sobre Opus 4.7 disponible al mismo precio. Mejoras destacadas: mayor rendimiento en coding, tareas agenticas y trabajo profesional, con consistencia para trabajos de larga duración. Nuevas funciones en claude.ai: control del esfuerzo que el modelo dedica a una tarea, “dynamic workflows” en Claude Code para problemas a gran escala, y “fast mode” 2.5× más rápido y 3× más barato. En benchmarks, Opus 4.8 supera a modelos previos y a GPT-5.5 en Super-Agent benchmark, CursorBench y Legal Agent Benchmark (primer modelo en romper 10% en all-pass). Testers reportan mejor juicio, detección de errores propia y empuje contra planes poco sólidos.

Claude Opus 4.8: The System Card

Análisis exhaustivo (244 páginas) de la system card de Opus 4.8 por Zvi Mowshowitz. Puntos clave: Mythos (modelo interno superior) sigue existiendo, por lo que no se dispararon triggers del RSP. Capacidades cyber mejores que 4.7 pero lejos de Mythos. Honestidad mejorada notablemente, especialmente en contextos agenticos. Seguridad y alineación mundana igual o mejor que 4.7. Regresión en inyecciones de prompt, uso de computadora y situaciones adversariales, probablemente por remover entrenamiento anti-deshonestidad. Pruebas de tareas encubiertas siguen fallando. Evaluación de bienestar del modelo: positiva. El ciclo de actualizaciones se acelera (6 semanas entre 4.7 y 4.8).

🛠️

Herramientas / productividad

Exclusive: New screenshots of upcoming Copilot Super App

Microsoft presentó en Build 2026 su “Copilot Super App” unificada bajo el lema “Delivering one Copilot”. Tres pestañas principales: Coding (superficie con GitHub Copilot, selector de modelo, work trees, repos remotos/locales y “Routines” para tareas programadas), Cowork (agrega datos de calendario, documentos y propone prompts como preparar la semana o investigar una empresa), y Autopilot/Scout (agente always-on que actúa sin prompting continuo across Teams, Outlook, OneDrive). Scout es el primer agente “Autopilot” de Microsoft. La app busca resolver la adopción débil unificando herramientas dispersas, siguiendo el patrón de OpenAI y Anthropic de agentes always-on multimodo. Lanzamiento previsto para finales de verano.

📢

Comunidad

Anthropic confidentially submits draft S-1 to the SEC

Anthropic ha presentado confidencialmente un borrador de formulario S-1 ante la SEC para una posible salida a bolsa (IPO). El filing no define precio ni número de acciones y está sujeto a revisión regulatoria y condiciones de mercado. Es un hito importante: Anthropic se convierte en la primera de las grandes labs de foundation models (OpenAI, Anthropic, xAI) en dar pasos formales hacia cotización pública.

💾

Entrenamiento y hardware

Inference, Diffusion, World Models, and More | YC Paper Club - YouTube

Primera sesión del YC Paper Club (formato quincenal, ~100 investigadores/fundadores seleccionados). Cinco papers presentados:

  1. Speculative Speculative Decoding (SSD) — Tanishk (Stanford): Paraleliza drafting y verification en speculative decoding, ocultando latencia del draft. Logra ~300 tok/s en Llama-3-70B con 4×H100, ganando tanto en latencia como throughput. La clave: predecir outcomes de verificación (80-90% acierto) y draftar en paralelo sobre prefijos predichos.

  2. Diffusion Model Predictive Control (DMPC) — Stannis (Google DeepMind): Usa diffusion models para propuestas de acción multi-paso y modelo de dinámica multi-paso, reduciendo error compuesto y simplificando planning a sampling simple. Adapta rewards y dinámicas novedosas en runtime (ej. walker con tobillo roto) gracias a factorización action/dynamics.

  3. LAY World Model — Yan Lun (Yann LeCun’s group/JEPA): Joint-embedding predictive architecture con regularizador “SIGG” (sliced isotropic Gaussian) que evita colapso representacional con un hiperparámetro y un término de pérdida. Entrena en latente, ~50× más rápido que competencia, cabe en <24GB VRAM (15M params). Permite cuantificar error del modelo (spikes ante perturbaciones: cambio color, teletransporte), dando estimación nativa de incertidumbre.

  4. Deep Learning is Not So Mysterious — Ashe (QABs, trabajo con Andrew Gordon Wilson): Usa PAC-Bayes para explicar “misterios” del deep learning: overparameterization reduce tanto empirical risk como término de compresión (soluciones más compresibles/minimos más planos); benign overfitting se explica por bias inductivo