ШІ Claude Opus 4.5 перевершив інженерів у тестах Anthropic

Як інформує «Перший Новинний» із посиланням на матеріал порталу HABR, компанія Anthropic оприлюднила своє випробувальне завдання для performance-інженерів. Організація запропонувала розробникам спробувати перевершити показники, які продемонстрував штучний інтелект (ШІ) Claude Opus 4.5. Тим спеціалістам, які впораються краще за алгоритм, обіцяють пріоритетний розгляд резюме та можливість отримати запрошення на співбесіду.

Причини відкриття тестового доступу

Це випробування тривалий час використовували для відбору персоналу, проте воно втратило актуальність як інструмент оцінки професіоналів. Ситуація змінилася після того, як Claude Opus 4.5 почав виконувати роботу якісніше за живих кандидатів протягом стандартних 2 годин. Сутність задачі полягає у глибокій оптимізації програмного коду, де успіх вимірюється в тактах симульованої машини. Чим менша їхня кількість, тим ефективнішим вважається фінальне рішення.

Учасникам необхідно оптимізувати обчислювальне ядро для вигаданого процесора, що за своєю архітектурою нагадує графічні прискорювачі (GPU). Робота вимагає від експерта вміння правильно пакувати вектори, розподіляти операції між ядрами та мінімізувати кожен крок обчислень. До відкритого репозиторію розробники додали симулятор, набір тестів та візуалізатор для виправлення помилок.

Змагання людини та машини в цифрах

Статистичні дані підтверджують суттєвий відрив технологій ШІ. Найкращий результат, який продемонструвала людина за 2 години, становить приблизно 1790 тактів. Водночас Claude Opus 4.5 за аналогічний період видає 1579 тактів. Якщо надати системі 11,5 годин для складніших обчислень, вона досягає позначки у 1487 тактів. Саме подолання останнього показника в Anthropic називають головною умовою для підтвердження переваги над штучним розумом.

Подібні досягнення вказують на те, що сучасні нейромережі здатні вирішувати вузькопрофільні інженерні питання швидше за людей із високим рівнем підготовки. Тепер це випробування стало глобальним конкурсом для програмістів, які прагнуть довести свою майстерність у боротьбі з алгоритмами. Фахівці зазначають, що такі успіхи автоматизації можуть повністю змінити підходи до написання та оптимізації низькорівневого коду в найближчому майбутньому.

Раніше ми писали про те, яку небезпеку несе новий вірус VoidLink для хмарних сервісів Linux.

Перегляди публікаціі: 411

Що нового?

ШІ-модель Claude Opus 4.5 обійшла людей у тестових завданнях Anthropic

Схожі публікації