Opus 4.8 - лучшая нейронка для вайб-кодинга

Opus 4.8 обогнал конкурентов в сборке полноценных приложений: 87,8% против 86,5% у ChatGPT-5.5. ViBench тестирует не просто код, а работающие системы с базами данных и авторизацией.

✍️ Роман Владимирович 4 июня 2026 1 мин чтения
👁 85 просмотров
📋 TL;DR — кратко о чём статья
Opus 4.8 лидирует в бенчмарке ViBench по сборке полноценных приложений с базами данных и авторизацией — 87,8% против 86,5% у ChatGPT-5.5. Тест измеряет не просто кодинг, а реальную функциональность: агент имитирует поведение пользователя и проверяет работоспособность. Это важно для разработчиков, которые оценивают модели для production-задач. Хотя разница с конкурентом невелика, Opus показывает более надёжный результат на сложных проектах.

По данным бенчмарка ViBench Opus 4.8 лучше остальных агентов справляется со сборкой приложений по описанию. В тех тестах модель Claude набрала 87,8%, в то время как его ближайший конкурент ChatGPT - 5.5 набрала 86,5%.

ViBench измеряет не просто умение написать код приложения или пофиксить баг, а собрать полноценное приложение с базой данных и авторизацией пользователя. Проверяет работоспособность приложения отдельный агент, который имитирует поведение живого пользователя.

На третьем месте по результатам оказалась китайская GLM 5.1 с 66,2%, после идут Gemini 3.5 и Kimi 2.6. На последнем месте MiniMax M2.7, которая смогла набрать только 17,6%.  

Теги
Поделиться
Telegram X
Автор

Понравилась статья?

Оцените материал — это поможет нам делать лучше.

Ещё по теме

Hermes получил собственный десктоп-клиент
📰 Новость 05 июн 2026
Hermes получил собственный десктоп-клиент
Hermes получил десктоп-приложение для всех ОС и закрыл разрыв с OpenClaw благодаря графическому интерфейсу. Автономный к...
Роман Владимирович · 1 мин
В Codex добавили хостинг сайтов
📰 Новость 03 июн 2026
В Codex добавили хостинг сайтов
Codex теперь генерирует интерактивные сайты за один запрос и встраивается в Figma и Canva для создания крео. Точечное ре...
Роман Владимирович · 1 мин
Codex научился управлять Windows
📰 Новость 01 июн 2026
Codex научился управлять Windows
Функция computer use теперь доступна на Windows: AI может управлять приложениями, кликать, печатать и контролировать ПК...
Роман Владимирович · 1 мин
Tap trading - новая игра на основе курса Solana
📰 Новость 08 июн 2026
Tap trading - новая игра на основе курса Solana
Duelbits переупаковала бинарные опционы в крипто-игру Tap Trading: угадывай курс SOL через 10 секунд и забирай выигрыш....
Роман Владимирович · 1 мин
На Githab выложили Opengram - самостоятельный сервер Telegram
📰 Новость 08 июн 2026
На Githab выложили Opengram - самостоятельный сервер Telegram
Opengram позволяет запустить собственный Telegram-сервер на базе open-source решения с полной поддержкой ботов, каналов...
Роман Владимирович · 1 мин
В Нидерландах ликвидировали ботнет Proxylib, связанный с Asocks
📰 Новость 02 июн 2026
В Нидерландах ликвидировали ботнет Proxylib, связанный с Asocks
Полиция Нидерландов изъяла более 200 серверов Asocks. Разбираем, как это может ударить по резидентским прокси, антифроду...
Роман Владимирович · 1 мин
Обновлено: 9 июня 2026 · Редакционная политика