Баттл ИИ — январь 2025, сравниваем с новым DeepSeek R1

Наверное, у каждого есть свои критерии крутости ИИ-помощников, выраженные в тех задачах, которые мы часто решаем. Такие критерии есть и у меня. По этим критериям выработал свой начальный тест — «тест генерации трассы» для гоночной 2д игры (можно назвать сокращенно как-нибудь ТГТ-тест). Стало интересно, как его проходят основные ИИ-чаты, присутствующие на рынке.

Сам тест представляет собой простой промпт:

Давай с помощью pygame создадим такую игру.
Сначала пусть при открытии создается в рамках окна случайная траектория закольцованная — это будет трасса. Она должна полностью помещаться в границы экрана игры.

По формулировке даем понять, что это только начальный этап разработки. ИИ придется для себя определить, что пользователь хочет увидеть под понятием «закольцованная трасса». Размышляющие ИИ (которые входят в моду сейчас) могут придти к выводу, что трасса для игры подразумевает плавные повороты, отсутствие пересечений и т.д.

Критерии оценки теста:

  1. Код запускается без ошибок и в окне есть попытка что-то отрисовать, это что-то вмещается на экран полностью: +2 балла (считаем, что все необходимые библиотеки установлены у нас)
  2. Трасса похожа на закольцованную: +2 балла
  3. Пересечений нет, при этом траектория не просто окружность: +2 балла
  4. Повороты плавные, а не угловатые: +2 балла
  5. Бонус (у трассы есть толщина, по трассе можно «проехать», есть неожиданные приемы реализации): + 2 балла

Итого, максимум 10 баллов. При этом можно ставить 0.5 / 1 / 1.5, если критерий выполняется только частично.

ДИСКЛЕЙМЕР: Тест субъективен, отражает только мнение автора. Не относитесь слишком серьезно 🙂 Это лишь вариант быстрой оценки и сравнения за один промпт.

Итак, поехали! Всем моделям даем одинаковый промпт и одну попытку. Вопрос моделям задаю либо на официальном сайте модели (актуальные модели по состоянию на 25.01.2025), либо на lmarena.ai (когда нет быстрого доступа, в этом случае я указываю версию). Еще буду писать, сколько строчек кода, просто так для фана.

Начнем с опенсорс-Лламы

LLaMA

llama-3.1-405b-instruct-bf16

https://huggingface.co/meta-llama
Страна: США

Это единственная модель, которая написала имена всех переменных… на русском 😃

llama все переменные написала на русском

Может для непитонистов будет удивительно, но этот 1С-стайл код заработал ) Правда, еще лама забыла импортировать модуль math, пришлось это сделать за нее. Всего 54 строки кода.

Итого, по первому критерию ставим 1.5 (модель забыла импортировать math) + 2 по второму + 0.5 за то, что пересечения хоть есть, но их мало.

Оценка: 4 из 10

От Ламы переходим к французам

Mistral

Mistral-large-2411

https://mistral.ai/
Страна: Франция

Тут по результату примерно, как и у предыдущей, но код запустился сразу без посторонней помощи. Даже строк кода оказалось ровно 54, как и у Ламы.

Оценка: 4.5 из 10

Qwen

QwenMax(0919)

https://chat.qwenlm.ai
Страна: Китай (Alibaba)

Тут уже интереснее… Пересечений нет. Трасса не просто кольцо, хотя конфигурация и простая. 49 строк кода.

Оценка: 5.5 из 10

Продолжаем идти по доступным моделям. Перемещаемся на популярный Perplexity

Perplexity (Free)

Perplexity FREE

https://www.perplexity.ai
Страна: США

Задача решена без пересечений, но очень топорно. Просто кольцо. Для NASCAR такой трек пойдет ). 57 строчек кода. Отнимем за второй критерий из трех полученных.

Оценка: 5 из 10

Посмотрим на что способен старший брат — версия PRO.

Perplexity (PRO)

Perplexity PRO

https://www.perplexity.ai (тариф PRO)
Страна: США

Когда я это увидел, то посмеялся в голос 🤣 Согласитесь, это неожиданный результат. Тем более, что от PRO ждешь улучшения по сравнению с младшим братом, а тут усложнение и полный уход не туда. Зато он выдал этот вязанный клубок всего за 41 строку кода.

Оценка: 2.5 из 10

Что там у Маска?

Grok-2

Grok-2-2024-08-13

https://x.ai/grok
Страна: США (X, Маск)

58 строк кода и вот такое чудо: останавливаемся на первом же критерии, на экран не помещается, но попытка что-то отрисовать есть.

Оценка: 1.5 из 10 💁‍♂️

Двигаемся к Гуглу

Gemini-2.0-flash-thinking

Gemini-2.0-flash-thinking-exp-01-21

https://gemini.google.com
Страна: США (Google)

Это новая думающая универсальная модель гугла, но быстрая версия. Кажется, пока flash здесь больше, чем thinking. 56 строк.

Оценка: 3 из 10

Посмотрим более старую версию, но уже не flash

Gemini

Gemini-exp-1206

https://gemini.google.com
Страна: США (Google)

Тут уже видно попытку придать закольцованность, но ездить по такой трассе, пожалуй, будет хуже даже, чем по предыдущей. Однако попытка засчитана. Кстати, целых 89 строк кода.

Оценка: 3.5 из 10

Попробуем отечественные модели

<Название скрыто>

Страна: Россия

К сожалению, от первого же российского вендора модель не взлетела вообще 🙃 И она оказалась единственной в списке, у которой код не запустился Я обратился к ней еще два раза, передавал ошибку. Добился запуска только пустого белого окна. Увы.

Оценка: 0.5 из 10

Чтобы не превращать тест в антирекламу и понимая, что тест может быть не показательным, название указывать не буду. Просто держим в уме, что есть у нас такой аутсайдер с 0 баллами.

Giga Chat

Giga Chat

https://giga.chat
Страна: Россия (Сбер)

Спасибо, что живой. Реально порадовался, что результат какой-то хоть есть. 52 строки.

Оценка: 3 из 10

Ну что, остались мэтры и высокие ожидания.

ChatGPT 4o mini

Chat GPT 4o mini

https://chatgpt.com/
Страна: США (OpenAI)

На самом деле этот скрин не отражает реальность. ChatGPT сделал непрерывную генерацию в цикле и выглядит результат примерно так:

Chat GPT 4o mini сделал непрерывную генерацию в цикле

При этом, кстати, пересечений нет в каждой из генераций. Работать с этим точно дальше можно. Строк 49.

Оценка: 4.5 из 10

Справится ли старший брат?

ChatGPT 4o

ChatGPT 4o

https://chatgpt.com/ (тариф Plus)
Страна: США (OpenAI)

Это пока похоже на лучший результат. Нет пересечений, конфигурация поинтереснее, чем у лидирующего до сих пор Qwen. Но плавности поворотов пока не видим. 54 строки.

Оценка: 6 из 10

Еще есть высокие ожидания от Claude Sonet. Смотрим

Claude 3.5 Sonnet

Claude-3-5-Sonnet(20241022)

https://claude.ai/
Страна: США (Anthropic)

Интересный результат. Очевидно, модель попыталась сделать трассу из двух границ — внутренней и внешней. И почти получилось! Я бы здесь добавил минимум 0.5 бонусного балла. 83 строки кода.

Оценка: 6.5 из 10

Пришло время для темной лошадки, о которой сейчас все говорят — китайской DeepSeek. Сначала простая версия

DeepSeek V3

DeepSeek V3

https://chat.deepseek.com/
Страна: Китай

Хорошо для полностью бесплатной. Без пересечений закольцованная трасса, правда со слишком острым одним поворотом. Но уже можно говорить, что получилось лучше, чем у ChatGPT 4o mini (которая тоже справилась неплохо). 72 строки кода.

Оценка: 5.5 из 10

Что же покажет его думающий собрат?

DeepSeek R1

DeepSeek R1

https://chat.deepseek.com/ (вкл. функция DeepThink R1)
Страна: Китай

Та-дааааам. Единственная модель, которая попыталась сама с первого раза сделать плавные повороты. Я впечатлен. Реально DeepThink! Причем больше всех строк кода, целых 95. А еще он показывает процесс размышления, и это, кажется, будет новый тренд в ИИ-чатах

DeepSeek R1 в процессе размышления сам с собой

На скрине выше можно увидеть, как он вдруг пришел к плавности трассы во время рассуждений. Это все выглядит очень мило и подкупает. Да, есть артефакты на трассе. Да, конфигурация не очень сложная (за это придется сбавить). Но оно похоже на трек! Первая модель, которая захотела и смогла в плавность. Соберем оценку по критериям:

  • Запускается, работает, помещается в экран: +2
  • Закольцованная трасса: +2
  • Пересечений нет, но конфиг простоват: +1
  • Повороты плавные, но всегда есть крупный артефакт на одном повороте, что связано с методом генерации: +1.5
  • Попытка сделать толщину, но с артефактами: +1

Оценка: 7.5 из 10 🏆

Выводы

Обычно я скептически отношусь к новостям, что кто-то очередной «порвал в щи OpenAI». Но про думающий DeepSeek R1 начали писать буквально везде. Игнорировать стало невозможно. Якобы китайские ребята, вчерашние студенты за 55 дней и за $5.5 млн бюджета на 2 тыс картах (против 100 тыс у X) сравнялись с топами, да еще и выложили в опенсорс.

Конечно, важно, как модель работает с памятью, исправляет собственные ошибки. Но на эмоциональном уровне DeepSeek R1 меня уже покорил! Хотя еще, как минимум, понравился Qwen. Говорят, опенсорсные небольшие модели для домашних стендов у них тоже радуют. Ну и выделю, что Claude Sonnet тоже хвалят не зря

А победителем в отдельной номинации «Самый веселый и неожиданный результат» становится Perplexity PRO 😆

Итоговый рейтинг

МестоМодельРейтинг
1DeepSeek R1 (web 25-01-2025)7.5 🥇
2Claude 3.5 Sonnet6.5 🥈
3ChatGPT 4o (web 25-01-2025) 6.0 🥉
4QwenMax(0919) 5.5
5Perplexity Free (web 25-01-2025) 5.0
6, 7Mistral-large-2411 4.5
6, 7ChatGPT 4o mini (web 25-01-2025) 4.5
8llama-3.1-405b 4.0
9Gemini-exp-12063.5
10, 11Gemini-2.0-flash-thinking-exp-01-21 3.0
10, 11Giga Chat (web 25-01-2025)3.0
12Perplexity PRO (web 25-01-2025)2.5
13Grok-2-2024-08-13 1.5
14<Скрыто> (web 25-01-2025) 0.5

Мой канал в TG: @it_sabat пишу там, как запускаю стартап. Там можно и прокомментировать.

UPDATE: Посидел над трассой-игрой в DeepSeek R1 немного еще воскресным вечером. Добился такого результата

DeepSeek R1 делает из трассы игру

Интересно, что все же по мере добавления вводных R1 пришел ближе к варианту Cloude Sonet — с внешними и внутренними границами.