Статистика

Размер модели vs качество, эффективность (score/log(GB)), winrate

< 10 GB
2
моделей
Ср. TS7.0
Ср. win%21%
Эффект.4.3
🏆 ministral-3
10–50 GB
6
моделей
Ср. TS12.0
Ср. win%36%
Эффект.4.3
🏆 ministral-3
50–150 GB
7
моделей
Ср. TS22.0
Ср. win%65%
Эффект.5.2
🏆 gemma4
> 150 GB
8
моделей
Ср. TS17.6
Ср. win%55%
Эффект.3.0
🏆 qwen3-vl

Размер vs TrueSkill

Ось X — размер модели (логарифмическая шкала). Размер кружка = количество турниров.

Эффективность = TS / log(GB)

Насколько хорош результат с учётом размера. Маленькая модель с высоким скором → высокая эффективность.

Winrate по моделям

Процент побед во всех матчах всех турниров.

Полная таблица

#МодельРазмер GBTS scoreСр. рангWinrateЭффект.Турниры
1gemma4:31b6374.53.282%17.95
2qwen3-vl:235b-instruct47040.65.667%6.65
3minimax-m2.523030.89.059%5.74
4ministral-3:14b1627.13.875%9.66
5nemotron-3-super22.49.845%5
6qwen3-coder-next8220.41.594%4.66
7gpt-oss:120b6517.98.070%4.35
8ministral-3:3b517.415.626%10.05
9devstral-2:123b12816.37.277%3.45
10glm-4.669614.811.052%2.31
11ministral-3:8b1014.713.249%6.15
12minimax-m2.123014.07.868%2.65
13minimax-m223012.814.049%2.35
14nemotron-3-nano:30b3312.316.836%3.55
15cogito-2.1:671b68912.010.651%1.85
16qwen3-vl:235b47011.69.062%1.95
17devstral-small-2:24b5210.16.765%2.56
18qwen3-next:80b828.914.632%2.05
19gpt-oss:20b147.817.423%2.95
20rnj-1:8b166.821.611%2.45
21gemma3:27b555.816.632%1.45
22qwen3-coder:480b5103.917.032%0.65
23gemma3:12b243.519.623%1.15
24gemma3:4b9-3.319.217%-1.55