La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el "solo sé que no sé nada"

La sorpresa del nuevo Claude Opus 4.8 no es que sea (un poco) mejor. La sorpresa es el "solo sé que no sé nada"
la sorpresa del nuevo claude opus 4.8 no es que sea (un poco) mejor. la sorpresa es el "solo sé que no sé nada"

No lo esperåbamos tan pronto, pero aquí estå Claude Opus 4.8, la nueva versión del modelo frontera de Anthropic. Han pasado tan solo 41 días desde el lanzamiento de Claude Opus 4.7, lo que parece dejar claro que la empresa no estaba del todo contenta con dicho modelo, que no acabó tampoco de conquistar muy buenas críticas. Con Claude Opus 4.8 lo realmente curioso no es que vuelva a establecer récords en la mayoría de benchmarks. La sorpresa es su honestidad.


Es mejor, sí, pero es no es lo que importa. En los resultados internos de los benchmarks publicados por Anthropic queda claro que Opus 4.8 estå por encima de Opus 4.7, pero también de GPT 5.5 y de Gemini 3.1 Pro (curioso, no lo comparan con el reciente Gemini 3.5 Flash. Supera a todos ellos en esas pruebas salvo en TerminalBench 2.1, en la que GPT-5.5 es algo superior. Es en realidad esperable que cada nuevo modelo supere a su antecesor, pero aquí lo llamativo es el enfoque del modelo.


Menos alucinaciones, mås humanidad. Desde hace tiempo estamos viendo cómo los nuevos modelos de IA son mejores en benchmarks, pero también ha habido saltos significativos en la disminución de alucinaciones. No solo inventan y se equivocan menos: comienzan a reconocer que no lo saben todo. Eso es muy importante... y muy humano. La completísima "Tarjeta de Sistema" incluye numerosas métricas que desde luego parecen demostrar que estamos ante un modelo mucho mås pulido que sus antecesores en este åmbito.


Flujos de trabajo. Una de las novedades presentadas junto al modelo son los flujos de trabajo dinĂĄmicos (Dynamic Workflows), que estĂĄn disponibles en versiĂłn preliminar y que estĂĄn orientados a una sola cosa: lograr trabajar con tareas mĂĄs complejas en Claude Code. Gracias a esta opciĂłn es posible desplegar cientos de agentes paralelos en una Ășnica sesiĂłn, algo por ejemplo Ăștil para analizar y migrar repositorios de cĂłdigo de cientos de miles de lĂ­neas.


Nada de Sonnet y Haiku. Claude Sonnet 4.6 se lanzĂł el 17 de febrero de 2026, pero desde entonces Anthropic no ha actualizado este modelo. La cosa es aĂșn peor para Claude Haiku, cuya Ășltima versiĂłn es la 4.5, lanzada el 15 de octubre de 2025. Estos modelos eran versiones mĂĄs modestas en prestaciones pero mucho mĂĄs baratas (sobre todo Haiku), y de momento Anthropic no los ha actualizado. Eso beneficia sus intereses, porque si quieres lo mejor, solo puedes tener lo mejor y lo mĂĄs caro, pero no lo mejor en su versiĂłn "asequible".


Los modelos de la capacidad de Mythos llegarĂĄn pronto. En el anuncio oficial Anthropic dejaban claro que "Los usuarios detectarĂĄn que Opus 4.8 es una mejora modesta pero tangible sobre su predecesor", pero ademĂĄs señalaban algo importante, y es que en las prĂłximas semanas tendremos modelos de IA con capacidades similares a Claude Mythos, pero disponibles pĂșblicamente:


En este blog Bienvenidos al duopolio de la IA: el sector ya factura 80.000 millones al año, pero OpenAI y Anthropic se llevan el 89% de los ingresos


No hay comentarios.:

Con tecnologĂ­a de Blogger.