📰 Новости

Opus 4.8 - лучшая нейронка для вайб-кодинга

Opus 4.8 обогнал конкурентов в сборке полноценных приложений: 87,8% против 86,5% у ChatGPT-5.5. ViBench тестирует не просто код, а работающие системы с базами данных и авторизацией.

✍️ Роман Владимирович • 4 июня 2026 • 1 мин чтения

👁 10 просмотров

📋 TL;DR — кратко о чём статья ▼

Opus 4.8 лидирует в бенчмарке ViBench по сборке полноценных приложений с базами данных и авторизацией — 87,8% против 86,5% у ChatGPT-5.5. Тест измеряет не просто кодинг, а реальную функциональность: агент имитирует поведение пользователя и проверяет работоспособность. Это важно для разработчиков, которые оценивают модели для production-задач. Хотя разница с конкурентом невелика, Opus показывает более надёжный результат на сложных проектах.

По данным бенчмарка ViBench Opus 4.8 лучше остальных агентов справляется со сборкой приложений по описанию. В тех тестах модель Claude набрала 87,8%, в то время как его ближайший конкурент ChatGPT - 5.5 набрала 86,5%.

ViBench измеряет не просто умение написать код приложения или пофиксить баг, а собрать полноценное приложение с базой данных и авторизацией пользователя. Проверяет работоспособность приложения отдельный агент, который имитирует поведение живого пользователя.

На третьем месте по результатам оказалась китайская GLM 5.1 с 66,2%, после идут Gemini 3.5 и Kimi 2.6. На последнем месте MiniMax M2.7, которая смогла набрать только 17,6%.

Теги

#ChatGPT-5.5 #Нейросети #Агенты #Opus 4.8 #Gemini 3.5 #Приложения #Вайб-кодинг