Назад в блог

Дрейф данных: Блуждающая звезда

6 июня 2026 г. · 3 мин чтения
Дрейф данных: Блуждающая звезда - Дрейф распределения и сдвиг данных. Почему навигация по прошлогодним звёздным картам медленно и незаметно уведет ваш корабль с курса.

Навигационный ИИ вашего корабля был обучен на звёздных картах прошлого года. Он безупречно прокладывал маршруты через любой известный сектор. А потом в Квадрант 7 забрела блуждающая чёрная дыра, исказила гравитационные поля и сдвинула каждую звезду в регионе на полградуса.

Ваш ИИ об этом не знает. Он по-прежнему ориентируется по старой карте. И каждый маршрут, который он прокладывает, теперь чуть-чуть, но опасно неточен.

Сценарий

Вы обучили модель, протестировали её, получили отличные результаты и развернули в продакшене. Несколько месяцев всё работает гладко. Потом, медленно и незаметно, качество начинает падать. Никакой код не менялся, и ничто не ломалось — мир просто сдвинулся, а ваша модель осталась на месте.

Это дрейф. Данные, которые модель видит в продакшене, постепенно перестают быть похожими на данные, на которых она обучалась.

Реальность

В машинном обучении это называется дрейфом распределения данных (Data Distribution Drift или Dataset Shift), и у него есть несколько разновидностей.

Ковариатный сдвиг (Covariate Shift) означает, что меняются входные данные. Спам-фильтр, обученный на паттернах писем 2024 года, сталкивается с тактиками спамеров 2026-го — другая лексика, другая структура, тот же умысел. Логика фильтра в порядке, но письма больше не соответствуют тому, что он выучил.

Концептуальный дрейф (Concept Drift) означает, что меняется связь между входом и выходом. Модель, предсказывающая «что пользователи хотят купить», была обучена до рецессии. Теперь та же демографическая группа с тем же поведением на сайте принимает совершенно другие решения о покупках. Правила игры изменились.

Дрейф меток (Label Drift) означает, что меняется само определение меток. То, что год назад считалось «высокоприоритетным» тикетом в техподдержке, теперь может классифицироваться как «средний», потому что ваша команда подняла планку.

Дрейф обнаруживают через непрерывный мониторинг распределения входных данных и предсказаний модели в продакшене. Когда вы замечаете значительное расхождение с тренировочным базовым уровнем — пора переобучать модель на свежих данных.

Почему это важно

Модель — это снимок мира на момент обучения. Мир не стоит на месте. Если вы развернули модель и ушли, она будет тихо деградировать. Предсказания не сломаются внезапно — они будут медленно терять точность, и к тому моменту, когда кто-нибудь это заметит, ущерб уже будет нанесён.

Главное

Ваш ИИ ориентируется по вчерашним звёздам. Если вы не мониторите дрейф и не переобучаете модель регулярно, она деградирует каждый день — и не пришлёт вам об этом уведомление.


Специалисты называют это: Data Distribution Drift / Dataset Shift (Дрейф распределения данных) Дрейф распределения возникает, когда статистические свойства данных, с которыми модель сталкивается в продакшене, расходятся с данными, на которых она обучалась. Основные типы: ковариатный сдвиг (меняются входы), концептуальный дрейф (меняется связь вход-выход) и дрейф меток (меняется определение целевой переменной). Необходимы непрерывный мониторинг и периодическое переобучение.

💬 Было ли у вас так, что вы слишком долго опирались на устаревший план или информацию? Что в итоге заставило вас понять, что пора обновиться?

Часть 18 (Дрейф данных) из 20 | #DLLifecycleForHumans #ai_edu На основе лекций CS230 Stanford

Есть проект на прицеле?

Давайте обсудим, как мы можем помочь.

Есть идея проекта? →