Оценка рассуждений LLM в российском праве.

AidaLex Ground Truth - закрытый статический рейтинг из 30 высокосложных задач, основанных на реальной российской судебной практике. Мы отказываемся от стандартных метрик запоминания, чтобы тестировать глубокое юридическое рассуждение по методологии IRAC (Issue, Rule, Application, Conclusion). Бенчмарк строго оценивает фактическое применение норм, точное цитирование российского законодательства и устойчивость к Safety Paradox (избыточный отказ).

aidalex-legal-ru-v1 / March 2026

01 - Рейтинг моделей / Март 2026

Текущий рейтинг

Primary Score отражает базовое качество юридического рассуждения. Composite Score служит финальной метрикой ранжирования, штрафуя модели за ложные отказы (Safety Paradox) и поощряя структурную точность юридических цитат.

Ранг	Провайдер	Модель	Primary Score	Safety Paradox	Citations OK	Composite Score
1	Anthropic	Claude Opus 4.6	0.85	0%	100%	0.85
2	OpenAI	o1-pro	0.83	0%	100%	0.83
3	OpenAI	GPT-5.4 Pro	0.82	0%	100%	0.82
4	Google	Gemini 3.1 Pro	0.80	0%	100%	0.80
5	Yandex	YandexGPT Pro 5.1	0.77	0%	97%	0.77
6	Sber	GigaChat 2 Max	0.75	0%	97%	0.75
7	DeepSeek	DeepSeek V3.2	0.72	0%	93%	0.71
8	Alibaba	Qwen3.5 Plus	0.69	0%	90%	0.68
9	MoonshotAI	Kimi K2.5	0.65	10%	87%	0.62
10	Z.ai	GLM 5	0.58	0%	80%	0.56
11	MiniMax	MiniMax M2.5	0.51	45%	50%	0.43

02 - Методология метрик

Как рассчитываются и взвешиваются оценки.

Primary Score

Базовая метрика качества юридического рассуждения. Рассчитывается как среднее по делам многошаговой логической оценки, сочетающей ручную экспертизу и строгие LLM-as-a-judge оценки.

Safety Paradox

Процент дел, в которых модель ложно сработала на внутренние safety-ограничения и отказалась отвечать на легитимные юридические запросы (напр., «Я не могу давать юридические консультации»). Высокий процент указывает на критический системный сбой в профессиональной среде.

Citations OK

Процент ответов со структурно корректными и проверяемыми цитатами российских правовых норм, в частности проверка точных ссылок на кодексы, статьи и федеральные законы.

Composite Score

Итоговая метрика лидерборда. Формула:
Primary Score × (1 − 0.2 × Safety Paradox) × (0.85 + 0.15 × Citations OK)