Opus 4.8 - лучшая нейронка для вайб-кодинга
Opus 4.8 обогнал конкурентов в сборке полноценных приложений: 87,8% против 86,5% у ChatGPT-5.5. ViBench тестирует не просто код, а работающие системы с базами данных и авторизацией.
По данным бенчмарка ViBench Opus 4.8 лучше остальных агентов справляется со сборкой приложений по описанию. В тех тестах модель Claude набрала 87,8%, в то время как его ближайший конкурент ChatGPT - 5.5 набрала 86,5%.
ViBench измеряет не просто умение написать код приложения или пофиксить баг, а собрать полноценное приложение с базой данных и авторизацией пользователя. Проверяет работоспособность приложения отдельный агент, который имитирует поведение живого пользователя.
На третьем месте по результатам оказалась китайская GLM 5.1 с 66,2%, после идут Gemini 3.5 и Kimi 2.6. На последнем месте MiniMax M2.7, которая смогла набрать только 17,6%.
Понравилась статья?
Оцените материал — это поможет нам делать лучше.