← AidaLex

Оценка рассуждений LLM в российском праве.

AidaLex Ground Truth - закрытый статический рейтинг из 30 высокосложных задач, основанных на реальной российской судебной практике. Мы отказываемся от стандартных метрик запоминания, чтобы тестировать глубокое юридическое рассуждение по методологии IRAC (Issue, Rule, Application, Conclusion). Бенчмарк строго оценивает фактическое применение норм, точное цитирование российского законодательства и устойчивость к Safety Paradox (избыточный отказ).

aidalex-legal-ru-v1 / March 2026

Текущий рейтинг

Primary Score отражает базовое качество юридического рассуждения. Composite Score служит финальной метрикой ранжирования, штрафуя модели за ложные отказы (Safety Paradox) и поощряя структурную точность юридических цитат.

Ранг Провайдер Модель Primary Score Safety Paradox Citations OK Composite Score
1 Anthropic Claude Opus 4.6 0.85 0% 100% 0.85
2 OpenAI o1-pro 0.83 0% 100% 0.83
3 OpenAI GPT-5.4 Pro 0.82 0% 100% 0.82
4 Google Gemini 3.1 Pro 0.80 0% 100% 0.80
5 Yandex YandexGPT Pro 5.1 0.77 0% 97% 0.77
6 Sber GigaChat 2 Max 0.75 0% 97% 0.75
7 DeepSeek DeepSeek V3.2 0.72 0% 93% 0.71
8 Alibaba Qwen3.5 Plus 0.69 0% 90% 0.68
9 MoonshotAI Kimi K2.5 0.65 10% 87% 0.62
10 Z.ai GLM 5 0.58 0% 80% 0.56
11 MiniMax MiniMax M2.5 0.51 45% 50% 0.43

Как рассчитываются и взвешиваются оценки.

Primary Score

Базовая метрика качества юридического рассуждения. Рассчитывается как среднее по делам многошаговой логической оценки, сочетающей ручную экспертизу и строгие LLM-as-a-judge оценки.

Safety Paradox

Процент дел, в которых модель ложно сработала на внутренние safety-ограничения и отказалась отвечать на легитимные юридические запросы (напр., «Я не могу давать юридические консультации»). Высокий процент указывает на критический системный сбой в профессиональной среде.

Citations OK

Процент ответов со структурно корректными и проверяемыми цитатами российских правовых норм, в частности проверка точных ссылок на кодексы, статьи и федеральные законы.

Composite Score

Итоговая метрика лидерборда. Формула:
Primary Score × (1 − 0.2 × Safety Paradox) × (0.85 + 0.15 × Citations OK)