Домой / Гаджеты / Топовые нейросети ужасно определяют время по аналоговым часам

Топовые нейросети ужасно определяют время по аналоговым часам

В копилку фактов для буллинга ИИ отправляются результаты теста ClockBench: всего в 13,3 % случаев самая умная нейросеть (тут это Gemini 2.5 Pro) правильно определяет время по аналоговым часам. Для сравнения: люди показывают результат в 89,1 %. Создатель бенчмарка Олег Чичигин таким образом хотел показать, что простое определение времени ставит LLM в тупик, несмотря на то, что они справляются с «Последним экзаменом человечества».

Для теста были отобраны 5 человек и 11 нейромоделей, умеющих воспринимать визуальную информацию. Нейронкам скормили 36 вариантов аналоговых часов и задали вопросы, связанные со временем. Не только «Который час?», но и, например, «Какое время будет спустя 15 минут?».

Автор пишет, что LLM в лучшем случае ошибались на час, а в худшем — на три. Люди же отклонялись всего на 3 минуты в среднем. Ещё из интересного: тяжелее всего анализу поддавались римские циферблаты. Полностью их понимаем. Даже для многих людей это задачка со звёздочкой.

Почему же нейронкам так сложно определить время? Чичигин предположил, что для решения этой задачи модели должны уметь выстраивать причинно-следственные связи. Кроме того, LLM сложно перенести данные часов в текстовое пространство, где они чувствуют себя как в рыба в воде.

В общем, кожаные мешки снова победили терминаторов.

Про Редактор Новостей

Проверьте также

Обзор телевизора Dreame TV 100Q100 размером в стену и невероятной детализацией картинки. С таким и кинотеатр не нужен

Обзор телевизора Dreame TV 100Q100 размером в стену и невероятной детализацией картинки. С таким и кинотеатр не нужен
Известный топовыми роботами-пылесосами производитель Dreame представил в России линейку телевизоров из 12 моделей. В этом обзоре посмотрим на флагманский 100-дюймовый Dreame TV 100Q100. Это телевизор с яркой 4K-панелью на базе QLED с частотой обновления 144 ГЦ, мощной аудиоситемой и полностью адаптированной под Россию смарт-оболочку. Проверили, как телевизор показывает, для чего его можно использовать, заценили HDR‑ и Dolby‑фишки и поняли, оправдала ли...