Як інформує «Перший Новинний» із посиланням на матеріал Financial Times, під час дослідження, організованого стартапом General Reasoning, передові ШІ-моделі втратили віртуальні гроші на прогнозах для Англійської Прем’єр-Ліги (АПЛ). Результати випробувань демонструють, що навіть найпотужніші системи відчувають значні труднощі при аналізі подій реального світу в довгостроковій перспективі.
Суть експерименту KellyBench
Фахівці стартапу оприлюднили дані проєкту KellyBench, які підтверджують: ШІ успішно справляється зі створенням програмного коду, але пасує перед складними аспектами людського життя. У межах тестування 8 топових систем змагалися у цифровій реконструкції сезону Прем’єр-ліги 2023–2024 років. Моделям надали детальні статистичні звіти щодо кожної команди та результати минулих ігор. Завданням алгоритмів було формування стратегії для отримання найбільшого прибутку при контролі фінансових ризиків.
Обмеження та результати роботи систем
Цифрові агенти прогнозували результати зустрічей та кількість забитих голів. Дослідники перевіряли, чи здатна технологія адаптуватися до нових чинників та оновлених даних про форму гравців, що з’являлися протягом сезону. Важливо, що моделі працювали без доступу до інтернету, а кожна з них мала по 3 спроби вийти «в плюс».
Зрештою всі передові розробки завершили сезон зі збитками, а більшість просто збанкрутувала. Експерти зазначили, що в цій дисципліні нейромережі продемонстрували результати, які суттєво поступаються людським здібностям.
Висновки щодо майбутнього технологій
Автори проєкту підкреслюють: страхи щодо витіснення людей машинами наразі є передчасними. У довгострокових прогнозах цифрові системи поки залишаються неспроможними. Більшість стандартних тестів для оцінки моделей описують статичні умови, що мають мало спільного з хаосом реальності. Попри успіхи в написанні коду, у багатьох інших сферах діяльності інтелектуальні сервіси все ще залишаються неефективними.
Статистика програшів та результати моделей
За підсумками віртуального сезону АПЛ показники систем були наступними:
- Anthropic Claude Opus 4.6: показав відносно найкращий результат із середніми збитками на рівні 11%. В одній зі спроб модель майже досягла беззбитковості.
- Google Gemini 3.1 Pro: у першому турі отримав прибуток у 34%, проте під час другої спроби повністю втратив гроші та збанкрутував.
- xAI Grok 4.20: миттєво втратив увесь капітал у першій спробі та не зміг завершити два подальші етапи випробувань.
Раніше ми писали про те, що Samsung інтегрує функцію AI-захисту від шахрайських дзвінків у нові смартфони.
