Оценка рассуждений LLM в российском праве.
AidaLex Ground Truth - закрытый статический рейтинг из 30 высокосложных задач, основанных на реальной российской судебной практике. Мы отказываемся от стандартных метрик запоминания, чтобы тестировать глубокое юридическое рассуждение по методологии IRAC (Issue, Rule, Application, Conclusion). Бенчмарк строго оценивает фактическое применение норм, точное цитирование российского законодательства и устойчивость к Safety Paradox (избыточный отказ).
aidalex-legal-ru-v1 / March 2026Текущий рейтинг
Primary Score отражает базовое качество юридического рассуждения. Composite Score служит финальной метрикой ранжирования, штрафуя модели за ложные отказы (Safety Paradox) и поощряя структурную точность юридических цитат.
| Ранг | Провайдер | Модель | Primary Score | Safety Paradox | Citations OK | Composite Score |
|---|---|---|---|---|---|---|
| 1 | Anthropic | Claude Opus 4.6 | 0.85 | 0% | 100% | 0.85 |
| 2 | OpenAI | o1-pro | 0.83 | 0% | 100% | 0.83 |
| 3 | OpenAI | GPT-5.4 Pro | 0.82 | 0% | 100% | 0.82 |
| 4 | Gemini 3.1 Pro | 0.80 | 0% | 100% | 0.80 | |
| 5 | Yandex | YandexGPT Pro 5.1 | 0.77 | 0% | 97% | 0.77 |
| 6 | Sber | GigaChat 2 Max | 0.75 | 0% | 97% | 0.75 |
| 7 | DeepSeek | DeepSeek V3.2 | 0.72 | 0% | 93% | 0.71 |
| 8 | Alibaba | Qwen3.5 Plus | 0.69 | 0% | 90% | 0.68 |
| 9 | MoonshotAI | Kimi K2.5 | 0.65 | 10% | 87% | 0.62 |
| 10 | Z.ai | GLM 5 | 0.58 | 0% | 80% | 0.56 |
| 11 | MiniMax | MiniMax M2.5 | 0.51 | 45% | 50% | 0.43 |
Как рассчитываются и взвешиваются оценки.
Базовая метрика качества юридического рассуждения. Рассчитывается как среднее по делам многошаговой логической оценки, сочетающей ручную экспертизу и строгие LLM-as-a-judge оценки.
Процент дел, в которых модель ложно сработала на внутренние safety-ограничения и отказалась отвечать на легитимные юридические запросы (напр., «Я не могу давать юридические консультации»). Высокий процент указывает на критический системный сбой в профессиональной среде.
Процент ответов со структурно корректными и проверяемыми цитатами российских правовых норм, в частности проверка точных ссылок на кодексы, статьи и федеральные законы.
Итоговая метрика лидерборда. Формула:
Primary Score × (1 − 0.2 × Safety Paradox) × (0.85 + 0.15 × Citations OK)