La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el "solo sé que no sé nada"

No lo esperábamos tan pronto, pero aquí está Claude Opus 4.8, la nueva versión del modelo frontera de Anthropic. Han pasado tan solo 41 días desde el lanzamiento de Claude Opus 4.7, lo que parece dejar claro que la empresa no estaba del todo contenta con dicho modelo, que no acabó tampoco de conquistar muy buenas críticas. Con Claude Opus 4.8 lo realmente curioso no es que vuelva a establecer récords en la mayoría de benchmarks. La sorpresa es su honestidad.

Es mejor, sí, pero es no es lo que importa. En los resultados internos de los benchmarks publicados por Anthropic queda claro que Opus 4.8 está por encima de Opus 4.7, pero también de GPT 5.5 y de Gemini 3.1 Pro (curioso, no lo comparan con el reciente Gemini 3.5 Flash. Supera a todos ellos en esas pruebas salvo en TerminalBench 2.1, en la que GPT-5.5 es algo superior. Es en realidad esperable que cada nuevo modelo supere a su antecesor, pero aquí lo llamativo es el enfoque del modelo.

Menos alucinaciones, más humanidad. Desde hace tiempo estamos viendo cómo los nuevos modelos de IA son mejores en benchmarks, pero también ha habido saltos significativos en la disminución de alucinaciones. No solo inventan y se equivocan menos: comienzan a reconocer que no lo saben todo. Eso es muy importante... y muy humano. La completísima "Tarjeta de Sistema" incluye numerosas métricas que desde luego parecen demostrar que estamos ante un modelo mucho más pulido que sus antecesores en este ámbito.

Flujos de trabajo. Una de las novedades presentadas junto al modelo son los flujos de trabajo dinámicos (Dynamic Workflows), que están disponibles en versión preliminar y que están orientados a una sola cosa: lograr trabajar con tareas más complejas en Claude Code. Gracias a esta opción es posible desplegar cientos de agentes paralelos en una única sesión, algo por ejemplo útil para analizar y migrar repositorios de código de cientos de miles de líneas.

Nada de Sonnet y Haiku. Claude Sonnet 4.6 se lanzó el 17 de febrero de 2026, pero desde entonces Anthropic no ha actualizado este modelo. La cosa es aún peor para Claude Haiku, cuya última versión es la 4.5, lanzada el 15 de octubre de 2025. Estos modelos eran versiones más modestas en prestaciones pero mucho más baratas (sobre todo Haiku), y de momento Anthropic no los ha actualizado. Eso beneficia sus intereses, porque si quieres lo mejor, solo puedes tener lo mejor y lo más caro, pero no lo mejor en su versión "asequible".

Los modelos de la capacidad de Mythos llegarán pronto. En el anuncio oficial Anthropic dejaban claro que "Los usuarios detectarán que Opus 4.8 es una mejora modesta pero tangible sobre su predecesor", pero además señalaban algo importante, y es que en las próximas semanas tendremos modelos de IA con capacidades similares a Claude Mythos, pero disponibles públicamente:

En este blog Bienvenidos al duopolio de la IA: el sector ya factura 80.000 millones al año, pero OpenAI y Anthropic se llevan el 89% de los ingresos

La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el "solo sé que no sé nada"

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog

La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el "solo sé que no sé nada"

También podría gustarte esto

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog