La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el "solo sé que no sé nada"
No lo esperĂĄbamos tan pronto, pero aquĂ estĂĄ Claude Opus 4.8, la nueva versiĂłn del modelo frontera de Anthropic. Han pasado tan solo 41 dĂas desde el lanzamiento de Claude Opus 4.7, lo que parece dejar claro que la empresa no estaba del todo contenta con dicho modelo, que no acabĂł tampoco de conquistar muy buenas crĂticas. Con Claude Opus 4.8 lo realmente curioso no es que vuelva a establecer rĂ©cords en la mayorĂa de benchmarks. La sorpresa es su honestidad.
Es mejor, sĂ, pero es no es lo que importa. En los resultados internos de los benchmarks publicados por Anthropic queda claro que Opus 4.8 estĂĄ por encima de Opus 4.7, pero tambiĂ©n de GPT 5.5 y de Gemini 3.1 Pro (curioso, no lo comparan con el reciente Gemini 3.5 Flash. Supera a todos ellos en esas pruebas salvo en TerminalBench 2.1, en la que GPT-5.5 es algo superior. Es en realidad esperable que cada nuevo modelo supere a su antecesor, pero aquĂ lo llamativo es el enfoque del modelo.
Menos alucinaciones, mĂĄs humanidad. Desde hace tiempo estamos viendo cĂłmo los nuevos modelos de IA son mejores en benchmarks, pero tambiĂ©n ha habido saltos significativos en la disminuciĂłn de alucinaciones. No solo inventan y se equivocan menos: comienzan a reconocer que no lo saben todo. Eso es muy importante... y muy humano. La completĂsima "Tarjeta de Sistema" incluye numerosas mĂ©tricas que desde luego parecen demostrar que estamos ante un modelo mucho mĂĄs pulido que sus antecesores en este ĂĄmbito.
Flujos de trabajo. Una de las novedades presentadas junto al modelo son los flujos de trabajo dinĂĄmicos (Dynamic Workflows), que estĂĄn disponibles en versiĂłn preliminar y que estĂĄn orientados a una sola cosa: lograr trabajar con tareas mĂĄs complejas en Claude Code. Gracias a esta opciĂłn es posible desplegar cientos de agentes paralelos en una Ășnica sesiĂłn, algo por ejemplo Ăștil para analizar y migrar repositorios de cĂłdigo de cientos de miles de lĂneas.
Nada de Sonnet y Haiku. Claude Sonnet 4.6 se lanzĂł el 17 de febrero de 2026, pero desde entonces Anthropic no ha actualizado este modelo. La cosa es aĂșn peor para Claude Haiku, cuya Ășltima versiĂłn es la 4.5, lanzada el 15 de octubre de 2025. Estos modelos eran versiones mĂĄs modestas en prestaciones pero mucho mĂĄs baratas (sobre todo Haiku), y de momento Anthropic no los ha actualizado. Eso beneficia sus intereses, porque si quieres lo mejor, solo puedes tener lo mejor y lo mĂĄs caro, pero no lo mejor en su versiĂłn "asequible".
Los modelos de la capacidad de Mythos llegarĂĄn pronto. En el anuncio oficial Anthropic dejaban claro que "Los usuarios detectarĂĄn que Opus 4.8 es una mejora modesta pero tangible sobre su predecesor", pero ademĂĄs señalaban algo importante, y es que en las prĂłximas semanas tendremos modelos de IA con capacidades similares a Claude Mythos, pero disponibles pĂșblicamente:
En este blog Bienvenidos al duopolio de la IA: el sector ya factura 80.000 millones al año, pero OpenAI y Anthropic se llevan el 89% de los ingresos
No hay comentarios.: