Opus 4.8 - лучшая нейронка для вайб-кодинга

Opus 4.8 обогнал конкурентов в сборке полноценных приложений: 87,8% против 86,5% у ChatGPT-5.5. ViBench тестирует не просто код, а работающие системы с базами данных и авторизацией.

✍️ Роман Владимирович 4 июня 2026 1 мин чтения
👁 10 просмотров
📋 TL;DR — кратко о чём статья
Opus 4.8 лидирует в бенчмарке ViBench по сборке полноценных приложений с базами данных и авторизацией — 87,8% против 86,5% у ChatGPT-5.5. Тест измеряет не просто кодинг, а реальную функциональность: агент имитирует поведение пользователя и проверяет работоспособность. Это важно для разработчиков, которые оценивают модели для production-задач. Хотя разница с конкурентом невелика, Opus показывает более надёжный результат на сложных проектах.

По данным бенчмарка ViBench Opus 4.8 лучше остальных агентов справляется со сборкой приложений по описанию. В тех тестах модель Claude набрала 87,8%, в то время как его ближайший конкурент ChatGPT - 5.5 набрала 86,5%.

ViBench измеряет не просто умение написать код приложения или пофиксить баг, а собрать полноценное приложение с базой данных и авторизацией пользователя. Проверяет работоспособность приложения отдельный агент, который имитирует поведение живого пользователя.

На третьем месте по результатам оказалась китайская GLM 5.1 с 66,2%, после идут Gemini 3.5 и Kimi 2.6. На последнем месте MiniMax M2.7, которая смогла набрать только 17,6%.  

Теги
Поделиться
Telegram X
Автор

Понравилась статья?

Оцените материал — это поможет нам делать лучше.

Ещё по теме

Обновлено: 4 июня 2026 · Редакционная политика