Баттл ИИ — январь 2025, сравниваем с новым DeepSeek R1
Наверное, у каждого есть свои критерии крутости ИИ-помощников, выраженные в тех задачах, которые мы часто решаем. Такие критерии есть и у меня. По этим критериям выработал свой начальный тест — «тест генерации трассы» для гоночной 2д игры (можно назвать сокращенно как-нибудь ТГТ-тест). Стало интересно, как его проходят основные ИИ-чаты, присутствующие на рынке.

Сам тест представляет собой простой промпт:
Давай с помощью pygame создадим такую игру.
Сначала пусть при открытии создается в рамках окна случайная траектория закольцованная — это будет трасса. Она должна полностью помещаться в границы экрана игры.
По формулировке даем понять, что это только начальный этап разработки. ИИ придется для себя определить, что пользователь хочет увидеть под понятием «закольцованная трасса». Размышляющие ИИ (которые входят в моду сейчас) могут придти к выводу, что трасса для игры подразумевает плавные повороты, отсутствие пересечений и т.д.
Критерии оценки теста:
- Код запускается без ошибок и в окне есть попытка что-то отрисовать, это что-то вмещается на экран полностью: +2 балла (считаем, что все необходимые библиотеки установлены у нас)
- Трасса похожа на закольцованную: +2 балла
- Пересечений нет, при этом траектория не просто окружность: +2 балла
- Повороты плавные, а не угловатые: +2 балла
- Бонус (у трассы есть толщина, по трассе можно «проехать», есть неожиданные приемы реализации): + 2 балла
Итого, максимум 10 баллов. При этом можно ставить 0.5 / 1 / 1.5, если критерий выполняется только частично.
ДИСКЛЕЙМЕР: Тест субъективен, отражает только мнение автора. Не относитесь слишком серьезно 🙂 Это лишь вариант быстрой оценки и сравнения за один промпт.
Итак, поехали! Всем моделям даем одинаковый промпт и одну попытку. Вопрос моделям задаю либо на официальном сайте модели (актуальные модели по состоянию на 25.01.2025), либо на lmarena.ai (когда нет быстрого доступа, в этом случае я указываю версию). Еще буду писать, сколько строчек кода, просто так для фана.
Начнем с опенсорс-Лламы
LLaMA

https://huggingface.co/meta-llama
Страна: США
Это единственная модель, которая написала имена всех переменных… на русском 😃

Может для непитонистов будет удивительно, но этот 1С-стайл код заработал ) Правда, еще лама забыла импортировать модуль math, пришлось это сделать за нее. Всего 54 строки кода.
Итого, по первому критерию ставим 1.5 (модель забыла импортировать math) + 2 по второму + 0.5 за то, что пересечения хоть есть, но их мало.
Оценка: 4 из 10
От Ламы переходим к французам
Mistral

https://mistral.ai/
Страна: Франция
Тут по результату примерно, как и у предыдущей, но код запустился сразу без посторонней помощи. Даже строк кода оказалось ровно 54, как и у Ламы.
Оценка: 4.5 из 10
Qwen

https://chat.qwenlm.ai
Страна: Китай (Alibaba)
Тут уже интереснее… Пересечений нет. Трасса не просто кольцо, хотя конфигурация и простая. 49 строк кода.
Оценка: 5.5 из 10
Продолжаем идти по доступным моделям. Перемещаемся на популярный Perplexity
Perplexity (Free)

https://www.perplexity.ai
Страна: США
Задача решена без пересечений, но очень топорно. Просто кольцо. Для NASCAR такой трек пойдет ). 57 строчек кода. Отнимем за второй критерий из трех полученных.
Оценка: 5 из 10
Посмотрим на что способен старший брат — версия PRO.
Perplexity (PRO)

https://www.perplexity.ai (тариф PRO)
Страна: США
Когда я это увидел, то посмеялся в голос 🤣 Согласитесь, это неожиданный результат. Тем более, что от PRO ждешь улучшения по сравнению с младшим братом, а тут усложнение и полный уход не туда. Зато он выдал этот вязанный клубок всего за 41 строку кода.
Оценка: 2.5 из 10
Что там у Маска?
Grok-2

https://x.ai/grok
Страна: США (X, Маск)
58 строк кода и вот такое чудо: останавливаемся на первом же критерии, на экран не помещается, но попытка что-то отрисовать есть.
Оценка: 1.5 из 10 💁♂️
Двигаемся к Гуглу
Gemini-2.0-flash-thinking

https://gemini.google.com
Страна: США (Google)
Это новая думающая универсальная модель гугла, но быстрая версия. Кажется, пока flash здесь больше, чем thinking. 56 строк.
Оценка: 3 из 10
Посмотрим более старую версию, но уже не flash
Gemini

https://gemini.google.com
Страна: США (Google)
Тут уже видно попытку придать закольцованность, но ездить по такой трассе, пожалуй, будет хуже даже, чем по предыдущей. Однако попытка засчитана. Кстати, целых 89 строк кода.
Оценка: 3.5 из 10
Попробуем отечественные модели
<Название скрыто>

Страна: Россия
К сожалению, от первого же российского вендора модель не взлетела вообще 🙃 И она оказалась единственной в списке, у которой код не запустился Я обратился к ней еще два раза, передавал ошибку. Добился запуска только пустого белого окна. Увы.
Оценка: 0.5 из 10
Чтобы не превращать тест в антирекламу и понимая, что тест может быть не показательным, название указывать не буду. Просто держим в уме, что есть у нас такой аутсайдер с 0 баллами.
Giga Chat

https://giga.chat
Страна: Россия (Сбер)
Спасибо, что живой. Реально порадовался, что результат какой-то хоть есть. 52 строки.
Оценка: 3 из 10
Ну что, остались мэтры и высокие ожидания.
ChatGPT 4o mini

https://chatgpt.com/
Страна: США (OpenAI)
На самом деле этот скрин не отражает реальность. ChatGPT сделал непрерывную генерацию в цикле и выглядит результат примерно так:

При этом, кстати, пересечений нет в каждой из генераций. Работать с этим точно дальше можно. Строк 49.
Оценка: 4.5 из 10
Справится ли старший брат?
ChatGPT 4o

https://chatgpt.com/ (тариф Plus)
Страна: США (OpenAI)
Это пока похоже на лучший результат. Нет пересечений, конфигурация поинтереснее, чем у лидирующего до сих пор Qwen. Но плавности поворотов пока не видим. 54 строки.
Оценка: 6 из 10
Еще есть высокие ожидания от Claude Sonet. Смотрим
Claude 3.5 Sonnet

https://claude.ai/
Страна: США (Anthropic)
Интересный результат. Очевидно, модель попыталась сделать трассу из двух границ — внутренней и внешней. И почти получилось! Я бы здесь добавил минимум 0.5 бонусного балла. 83 строки кода.
Оценка: 6.5 из 10
Пришло время для темной лошадки, о которой сейчас все говорят — китайской DeepSeek. Сначала простая версия
DeepSeek V3

https://chat.deepseek.com/
Страна: Китай
Хорошо для полностью бесплатной. Без пересечений закольцованная трасса, правда со слишком острым одним поворотом. Но уже можно говорить, что получилось лучше, чем у ChatGPT 4o mini (которая тоже справилась неплохо). 72 строки кода.
Оценка: 5.5 из 10
Что же покажет его думающий собрат?
DeepSeek R1

https://chat.deepseek.com/ (вкл. функция DeepThink R1)
Страна: Китай
Та-дааааам. Единственная модель, которая попыталась сама с первого раза сделать плавные повороты. Я впечатлен. Реально DeepThink! Причем больше всех строк кода, целых 95. А еще он показывает процесс размышления, и это, кажется, будет новый тренд в ИИ-чатах

На скрине выше можно увидеть, как он вдруг пришел к плавности трассы во время рассуждений. Это все выглядит очень мило и подкупает. Да, есть артефакты на трассе. Да, конфигурация не очень сложная (за это придется сбавить). Но оно похоже на трек! Первая модель, которая захотела и смогла в плавность. Соберем оценку по критериям:
- Запускается, работает, помещается в экран: +2
- Закольцованная трасса: +2
- Пересечений нет, но конфиг простоват: +1
- Повороты плавные, но всегда есть крупный артефакт на одном повороте, что связано с методом генерации: +1.5
- Попытка сделать толщину, но с артефактами: +1
Оценка: 7.5 из 10 🏆
Выводы
Обычно я скептически отношусь к новостям, что кто-то очередной «порвал в щи OpenAI». Но про думающий DeepSeek R1 начали писать буквально везде. Игнорировать стало невозможно. Якобы китайские ребята, вчерашние студенты за 55 дней и за $5.5 млн бюджета на 2 тыс картах (против 100 тыс у X) сравнялись с топами, да еще и выложили в опенсорс.
Конечно, важно, как модель работает с памятью, исправляет собственные ошибки. Но на эмоциональном уровне DeepSeek R1 меня уже покорил! Хотя еще, как минимум, понравился Qwen. Говорят, опенсорсные небольшие модели для домашних стендов у них тоже радуют. Ну и выделю, что Claude Sonnet тоже хвалят не зря
А победителем в отдельной номинации «Самый веселый и неожиданный результат» становится Perplexity PRO 😆
Итоговый рейтинг
Место | Модель | Рейтинг |
1 | DeepSeek R1 (web 25-01-2025) | 7.5 🥇 |
2 | Claude 3.5 Sonnet | 6.5 🥈 |
3 | ChatGPT 4o (web 25-01-2025) | 6.0 🥉 |
4 | QwenMax(0919) | 5.5 |
5 | Perplexity Free (web 25-01-2025) | 5.0 |
6, 7 | Mistral-large-2411 | 4.5 |
6, 7 | ChatGPT 4o mini (web 25-01-2025) | 4.5 |
8 | llama-3.1-405b | 4.0 |
9 | Gemini-exp-1206 | 3.5 |
10, 11 | Gemini-2.0-flash-thinking-exp-01-21 | 3.0 |
10, 11 | Giga Chat (web 25-01-2025) | 3.0 |
12 | Perplexity PRO (web 25-01-2025) | 2.5 |
13 | Grok-2-2024-08-13 | 1.5 |
14 | <Скрыто> (web 25-01-2025) | 0.5 |
Мой канал в TG: @it_sabat — пишу там, как запускаю стартап. Там можно и прокомментировать.
UPDATE: Посидел над трассой-игрой в DeepSeek R1 немного еще воскресным вечером. Добился такого результата

Интересно, что все же по мере добавления вводных R1 пришел ближе к варианту Cloude Sonet — с внешними и внутренними границами.