AI Due Diligence: полный гайд для инвестора в AI-компанию
2026 AI Act IP Training Data Инвесторам

AI Due Diligence: что проверять при инвестиции в AI-компанию

5 блоков юридической проверки, которые отличают AI DD от классического legal due diligence — и которые большинство инвесторов всё ещё пропускают

📖 ~8 мин чтения · 🔗 AI Due Diligence
💼 Инвесторам 📋 Чеклист DD ⚖️ AI Act 🔑 IP & Данные
1. Почему AI DD отличается от обычного legal DD

Классический legal due diligence проверяет корпоративную структуру, финансовую отчётность, трудовые договоры и регистрацию IP. В AI-компании этого недостаточно — и не потому, что стандарты выросли. Просто природа актива другая.

Ключевой актив AI-стартапа — это модель. Но модель — не просто код: это результат обучения на конкретных данных, с использованием конкретных инструментов, конкретными людьми. Каждое из этих звеньев несёт самостоятельный правовой риск. AI Due Diligence — это структурированная проверка всей этой цепочки до подписания term sheet.

40%
AI-стартапов не могут документально подтвердить происхождение обучающих данных
€35M
максимальный штраф по EU AI Act для систем высокого риска (или 7% глобального оборота)
$6B+
совокупная сумма исков против AI-компаний по правам на training data с 2023 года
⬜ Классический legal DD
Стандартные блоки проверки
  • Корпоративная структура и cap table
  • Финансовая отчётность и задолженности
  • Регистрация IP: патенты, торговые марки
  • Трудовые договоры и NDA
  • Судебные дела и претензии
🤖 AI-специфические блоки
Дополнительные проверки для AI
  • Происхождение модели: кто и как обучал
  • Права на обучающие данные (training data)
  • Compliance по EU AI Act / GPAI
  • Условия контрактов с foundation model провайдерами
  • Санкционный скрининг команды и данных
💡 Ключевой вывод: классический DD не «закроет» AI-специфические риски даже если проведён идеально. Инвестор, купивший долю в компании с нелицензированными training data, становится совладельцем этих рисков — независимо от того, что написано в SPA. Подробнее об инвестиционном AI DD и юридическом сопровождении инвестиций.
2. Блок 1: Права на модель — кто создал, кому принадлежит

Модель — это код плюс веса плюс pipeline обучения. Каждый из этих элементов может принадлежать разным лицам: штатным сотрудникам, подрядчикам, open-source проектам, foundation model провайдерам. Задача инвестора — понять, что именно стартап считает своим и насколько это соответствует реальным правовым основаниям.

1 Права на модель и код
👥
Кто обучал модель?
Штатные сотрудники vs подрядчики. IP-assignment в трудовых договорах и contractor agreements — наличие и полнота.
🔧
Какие base/pre-trained модели использованы?
Лицензии open-source моделей (Llama, Mistral, Stable Diffusion): коммерческое использование, ограничения на fine-tuning и дистрибуцию.
⚠️
Есть ли права на distribution и sublicense?
Ряд open-source лицензий (Creative ML OpenRAIL) запрещают определённые use cases. Критично для B2B-продажи или перепродажи API.
📄
Есть ли Model Card / техническая документация?
Документация фиксирует, что модель умеет и чего не умеет. Отсутствие — красный флаг и риск по EU AI Act.
📌 Прецедент: иски Getty Images vs Stability AI и NYT vs OpenAI показали, что суды готовы рассматривать сам факт обучения на защищённых данных как нарушение. Если стартап обучал модель на scraping-данных — это риск, который нужно оценить до инвестиции. IP на модель и код можно структурировать заранее.

Чеклист по блоку 1 — Права на модель:

  • ☑️IP Assignment во всех трудовых договорах и contractor agreements — проверить актуальность, полноту и применимое право
  • ☑️Реестр использованных pre-trained/open-source моделей — лицензия каждой: тип, коммерческие ограничения, производные работы
  • ☑️Model Card или аналогичная документация — описание возможностей, ограничений и intended use
  • ☑️Отсутствие явных нарушений третьих лиц — патентные поиски, уведомления о претензиях, DMCA notices

3. Блок 2: Данные — лицензии, GDPR и scraping-риски

Training data — вторая критическая точка. Модель воспроизводит паттерны из данных, на которых обучалась. Если данные были получены незаконно или использованы без надлежащей лицензии, это не просто юридический риск — это риск для всего продукта.

2 Данные и обучающий датасет
📦
Источники обучающих данных
Публичные датасеты (Hugging Face, Common Crawl), лицензированные базы данных, proprietary data. Документация по каждому источнику.
🌐
Web scraping
Нарушение robots.txt и Terms of Service сайтов — растущая зона судебных рисков. Суды в ЕС и США всё чаще встают на сторону правообладателей.
👤
Персональные данные в training set
Наличие PII в обучающих данных без правовых оснований — нарушение GDPR. Штрафы до 4% глобального оборота + риск erasure request.
🗺️
Географические ограничения данных
Данные из ОАЭ могут регулироваться PDPL, из Saudi Arabia — PDLP, из KSA — собственным законодательством. Трансграничная передача требует проверки.
  • ☑️Data inventory — полный реестр источников данных с указанием лицензии или правового основания для каждого
  • ☑️GDPR/PDPL compliance — наличие или отсутствие персональных данных в training set, основание обработки (consent / legitimate interest)
  • ☑️Scraping-политика — соответствие ToS scraped-сайтов, наличие или отсутствие cease-and-desist уведомлений
  • ☑️Data retention policy — как долго хранятся обучающие данные и выходные данные модели, процедура erasure
💡 Если стартап не может предоставить data inventory за 48 часов после запроса — это само по себе диагностический сигнал. Компании с порядком в данных обычно имеют этот документ в готовом виде.
4. Блок 3: EU AI Act compliance — классификация и статус

3 AI Act compliance

С 2025–2026 года EU AI Act вступает в силу поэтапно. Для инвестора ключевой вопрос — к какой категории риска относится AI-система стартапа и насколько компания готова соответствовать требованиям своей категории к установленным дедлайнам.

🚫 Запрещено
Prohibited AI Systems
Системы социального скоринга граждан, биометрическая идентификация в реальном времени в публичных местах (с исключениями), манипулятивные системы.
⛔ Для инвестора: немедленный dealbreaker — такие системы не могут работать на EU-рынке
🔴 Высокий риск
High Risk AI Systems
Медицинские устройства, системы найма и оценки персонала, кредитный скоринг, образовательные системы оценки, системы в критической инфраструктуре.
⚠️ Для инвестора: требуют conformity assessment, технической документации, регистрации в EU DB до выхода на рынок. Проверить roadmap и статус
🟣 GPAI Model
General Purpose AI Models
Модели с ≥10^25 FLOPs или «systemic risk» статусом (GPT-4 класс). Требуют технической документации, copyright summary, adversarial testing.
🔍 Для инвестора: уточнить, разрабатывает ли стартап own GPAI или использует чужую. Если своя — проверить compliance статус отдельно
🟢 Minimal/Limited
Limited & Minimal Risk
Чат-боты, recommendation systems, spam-фильтры. Требуют прозрачности (пользователь должен знать, что общается с AI). Compliance относительно прост.
✅ Для инвестора: базовый уровень требований. Проверить transparency notices и Terms of Use

Timeline вступления в силу:

Февраль 2025
Запрет на Prohibited AI Systems
Запрещённые системы должны быть выведены из эксплуатации — уже в силе
Август 2025
GPAI Model obligations
Требования к General Purpose AI моделям: документация, copyright policy, adversarial testing
Август 2026
High Risk AI Systems — полные требования
Conformity assessment, EU DB registration, техническая документация — обязательны для вывода на рынок
2027+
Full enforcement для встроенных систем высокого риска
Продление для AI-систем в уже сертифицированном оборудовании

Чеклист по блоку 3 — AI Act compliance:

  • ☑️Самоклассификация по уровню риска — есть ли у компании документированная классификация и методология, по которой она проводилась
  • ☑️Техническая документация — для High Risk и GPAI: наличие, актуальность, соответствие Annex IV требованиям AI Act
  • ☑️Conformity Assessment roadmap — для High Risk: план и статус прохождения оценки соответствия до August 2026
  • ☑️Transparency notices — для всех систем: уведомления пользователей об AI, политика раскрытия
⚠️ Extraterritoriality AI Act: закон применяется к любой системе, используемой на территории ЕС, независимо от юрисдикции компании-разработчика. Стартап из ОАЭ или Сингапура, продающий SaaS европейским клиентам, полностью подпадает под требования. Подробнее: AI Act compliance.
5. Блок 4: Контракты с провайдерами

4 Контракты с AI-провайдерами

Большинство AI-стартапов строят продукты на foundation models от OpenAI, Anthropic, Google или через облачных провайдеров (AWS, Azure, GCP). Условия этих контрактов напрямую ограничивают, что компания может делать со своей собственной моделью и данными.

🟢 OpenAI
  • No-training clause: OpenAI не обучается на API-данных (по умолчанию)
  • Usage policies: запрет на определённые use cases
  • Право прекратить доступ без предупреждения
  • Ограничения на публикацию benchmark-результатов
⚠️ Средний риск зависимости
🟣 Anthropic (Claude)
  • Строгая usage policy с Constitution AI ограничениями
  • No training on API data: закреплено в ToS
  • Ограничения на autonomous / agentic use cases
  • Enterprise договоры отличаются от API ToS
✅ Низкий риск по данным
☁️ AWS Bedrock / Azure
  • Data residency опции — важно для GDPR
  • Service agreement + foundational model lincense layer
  • SLA и uptime обязательства
  • Условия прекращения сервиса и data portability
⚠️ Зависит от конфигурации
🚫
No-training clause
Контракт запрещает провайдеру обучаться на данных компании. Критично для конфиденциальности бизнес-данных клиентов.
🔄
Data portability
Возможность экспортировать fine-tuned модели, промпты и данные при смене провайдера. Влияет на оценку технологической независимости.
⏸️
Termination clause
Условия прекращения сервиса: сроки уведомления, порядок возврата данных, continuity plan. Особенно важно при единственном провайдере.
📍
Data residency
В какой юрисдикции хранятся и обрабатываются данные. Критично для GDPR, PDPL и клиентов из регулируемых индустрий.
  • ☑️Реестр всех API/SaaS провайдеров — с актуальными версиями ToS и Enterprise agreements, если есть
  • ☑️No-training clause во всех провайдерских контрактах — или документированное решение использовать opt-out
  • ☑️Data residency соответствует целевым рынкам — EU-клиенты: данные в ЕС или соглашение SCCs
  • ☑️Отсутствие vendor lock-in без exit strategy — если 100% продукта на одном провайдере, что происходит при прекращении сервиса

6. Блок 5: Регуляторные и судебные риски

5 Регуляторные риски

Последний, но не менее критичный блок — проверка текущих и потенциальных регуляторных и судебных рисков. AI-компании всё чаще становятся мишенью претензий от правообладателей, регуляторов и частных лиц.

⚖️
Активные судебные дела и претензии
Иски от правообладателей по training data, DMCA claims, патентные споры. Проверить: litigation search, USPTO/EPO база, уведомления о претензиях в юридическом файле.
🔍
Санкционный скрининг
Команда, инвесторы, клиенты, юрисдикции обработки данных — проверка по спискам OFAC, EU Sanctions, UN. Особенно критично для компаний с командой в СНГ или MENA.
🌍
Регуляторные претензии от DPA
Открытые расследования или запросы от Data Protection Authorities (GDPR). CNIL (Франция), DPC (Ирландия), итальянский Garante уже выдавали предписания AI-компаниям.
🗺️
Пользователи в регулируемых юрисдикциях
Если среди пользователей есть резиденты стран с особым AI-законодательством (КНР, ОАЭ, Саудовская Аравия) — применяются локальные требования, которые могут конфликтовать с западными.
  • ☑️Litigation search — поиск по базам судебных дел в целевых юрисдикциях + запрос representations в SPA
  • ☑️Санкционный скрининг всей цепочки — основатели, ключевые инвесторы, jurisdiction of data processing
  • ☑️Регуляторная история — запросы DPA, предписания, штрафы. Необходимо запросить как часть legal rep в SPA
  • ☑️Страховое покрытие — наличие E&O / cyber liability страховки с покрытием AI-специфических рисков
⚠️ Важно по SPA: representations и warranties в договоре купли-продажи должны явно покрывать AI-специфические риски: правомерность training data, отсутствие нарушений AI Act, compliance провайдерских контрактов. Стандартные SPA-шаблоны этих пунктов не содержат.
7. Красные флаги — 5 стоп-факторов для инвестора

По результатам AI DD один из следующих факторов должен стать основанием для паузы в сделке — до получения удовлетворительных объяснений или устранения риска.

1
Компания не может объяснить источники обучающих данных
«Мы взяли данные из интернета» — не ответ. Если нет data inventory и документации о правовых основаниях каждого источника, это прямой путь к судебным искам по IP и GDPR-штрафам.
2
Отсутствует Model Card или техническая документация модели
Это нарушение EU AI Act для большинства сценариев — и признак отсутствия инженерной зрелости. Компания, не документирующая собственную модель, не готова к enterprise-клиентам и регуляторным проверкам.
3
Активные судебные иски по IP или training data
Незакрытые иски — это contingent liability, которую нужно корректно отразить в оценке. Если компания скрывала их в ходе DD — это уже вопрос доверия к основателям.
4
Нет Terms of Use с AI-дисклеймером для конечных пользователей
Отсутствие ToU с ограничениями ответственности за AI-ошибки и описанием возможностей системы — это прямой liability risk. С вступлением в силу EU AI Liability Directive этот риск становится измеримым в деньгах.
5
High Risk система без roadmap к AI Act compliance до August 2026
Если продукт попадает в High Risk категорию, но у компании нет плана conformity assessment — с августа 2026 года продукт не может легально продаваться в ЕС. Это фундаментально влияет на оценку EU-рыночного потенциала.
🔑
IP & Данные
Блоки 1–2: права на модель и training data — фундамент, без которого инвестиция стоит на зыбком грунте.
⚖️
Регуляторная готовность
Блок 3: AI Act compliance определяет, сможет ли компания масштабироваться на EU-рынок без структурных переделок.
🛡️
Контрактная защита
Блоки 4–5: провайдерские контракты и отсутствие судебных рисков — основа для корректного SPA и rep & warranty insurance.
Проведём AI Due Diligence вашей инвестиции
Структурированная юридическая проверка по 5 блокам — от прав на модель и данные до AI Act compliance и контрактных рисков. Под конкретную сделку и юрисдикцию.
🔍Анализ training data — источники, лицензии, GDPR/PDPL соответствие, scraping-риски
⚖️AI Act классификация — риск-уровень системы, статус готовности, compliance roadmap до ключевых дедлайнов
📄Проверка провайдерских контрактов — no-training clause, data residency, portability, termination terms
🚩Красные флаги и рекомендации — DD-отчёт с конкретными findings и условиями в SPA для их покрытия
⚠️ Важно: AI DD нужно проводить до подписания term sheet, а не после. Findings, обнаруженные после закрытия сделки, значительно сложнее конвертировать в защиту. Стандартные rep & warranty в SPA AI-рисков не покрывают.
💡 Если стартап работает с AI-агентами или autonomous systems — дополнительно проверьте liability exposure: кто отвечает за ошибки AI — отдельный блок анализа с 2026 года.