Как кластеризация данных помогает снизить текучку кадров в IT: практическое руководство

27 февраля 2022 г.
9 мин. чтения
Илья Демьянов

# Как кластеризация данных помогает снизить текучку кадров в IT: практическое руководство

Почему HR-аналитика — новый must-have для IT-компаний

В IT-отрасли текучка разработчиков обходится в среднем в 1,5–2 средние месячные зарплаты на сотрудника. Для команды из 50 человек это 3–4 миллиона рублей в год только на прямые убытки от увольнений. Но убытки на этом не заканчиваются: потеря ключевых специалистов замедляет проекты, увеличивает нагрузку на оставшихся сотрудников и подрывает репутацию компании как надежного работодателя. Классический подход — анкеты обратной связи или интуитивные решения HR — не успевают за динамикой IT-рынка. Здесь на помощь приходит people analytics и кластеризация данных.

Кластеризация позволяет выявить скрытые паттерны в поведении сотрудников: кто склонен к увольнению, какие факторы влияют на лояльность, как оптимизировать карьерные траектории. В отличие от традиционных методов, анализ данных дает объективную картину и позволяет действовать проактивно. Например, в одной IT-компании из 120 человек с помощью кластеризации удалось снизить текучку на 23% за 6 месяцев, внедрив персонализированные программы удержания для трех ключевых групп риска.

Если ваша IT-компания сталкивается с высокой текучкой, но не знает, с чего начать анализ данных — пора переходить от интуиции к evidence-based HR. Кластеризация — это не просто инструмент для дата-сайентистов, а стратегический актив, который помогает принимать решения на основе фактов, а не предположений.

Какие данные подходят для кластеризации в HR

Для кластеризации сотрудников подходят как количественные, так и качественные данные. Основные категории:

Демографические данные: возраст, пол, семейное положение, наличие детей. Например, сотрудники в возрасте 25–30 лет с детьми чаще рассматривают варианты с гибким графиком, даже если зарплата ниже.

Карьерные метрики: стаж в компании, количество повышений, смена ролей, время работы с текущим менеджером. В IT-компаниях с матричной структурой сотрудники, которые не видят карьерного роста более 18 месяцев, в 2,5 раза чаще увольняются.

Показатели вовлеченности: результаты опросов, оценки удовлетворенности, частота обращений в HR. Например, если сотрудник за последний год не участвовал ни в одном корпоративном мероприятии и не проходил обучение, его вероятность увольнения возрастает на 40%.

Операционные данные: переработки, участие в проектах, удаленная работа, использование корпоративных льгот. В одной компании из 80 человек анализ показал, что сотрудники, работающие более 45 часов в неделю, увольняются в 3 раза чаще остальных.

Финансовые данные: уровень зарплаты, бонусы, участие в акционерных программах. Важно учитывать не только абсолютные цифры, но и сравнение с рынком: если сотрудник получает на 20% ниже среднерыночной зарплаты за аналогичную позицию, риск увольнения возрастает на 60%.

Чек-лист: какие данные нужны для анализа

  • [ ] Возраст, пол, семейное положение
  • [ ] Стаж в компании и в текущей роли
  • [ ] Уровень зарплаты и бонусов
  • [ ] Оценки удовлетворенности (если есть)
  • [ ] Данные по переработкам и проектам
  • [ ] История повышений и обучения
  • Если у вас нет полного набора данных, начните с того, что есть. Даже базовый анализ 5–7 ключевых метрик даст понимание, где искать проблему. Например, в стартапе на seed-раунде с командой из 30 человек анализ только по возрасту, зарплате и стажу помог выявить группу риска — разработчиков 28–32 лет без повышений за последние 2 года. После внедрения программы наставничества текучка в этой группе снизилась с 15% до 5%.

    Выбор метода кластеризации: почему Gower Distance лучше, чем Euclidean

    Большинство HR-аналитиков начинают с классического метода кластеризации — K-Means, который использует Евклидово расстояние. Однако этот метод работает только с непрерывными переменными (например, возраст, зарплата). В IT-компаниях данные редко бывают только числовыми: у вас есть номинальные переменные (например, отдел: frontend, backend, DevOps) и порядковые (например, уровень удовлетворенности от 1 до 5).

    Для таких данных лучше подходит Gower Distance — метрика, которая учитывает разные типы переменных. Преимущества Gower Distance:

  • Работает с номинальными, порядковыми и непрерывными переменными одновременно
  • Устойчива к выбросам (например, если один сотрудник получает аномально высокую зарплату)
  • Позволяет интерпретировать результаты на уровне отдельных кластеров
  • Недостаток — высокая вычислительная сложность. Для компании из 500 сотрудников расчет матрицы расстояний может занять несколько минут, а для компании из 5000 — до часа. Однако современные инструменты (например, R или Python с библиотекой cluster) справляются с этим за приемлемое время.

    Пример: как Gower Distance выявила скрытые группы риска

    В IT-компании из 200 человек анализ с использованием Gower Distance выявил 5 кластеров сотрудников. Самый проблемный кластер — разработчики 30–35 лет с зарплатой 180–220 тыс. рублей в месяц, работающие в компании более 3 лет. Их ключевая характеристика — низкая вовлеченность (оценка удовлетворенности 2–3 из 5) и отсутствие карьерного роста. После внедрения программы индивидуального развития текучка в этом кластере снизилась с 12% до 4%.

    Если ваша IT-компания использует только Евклидово расстояние, вы рискуете пропустить важные паттерны. Например, два сотрудника могут быть похожи по возрасту и зарплате, но сильно отличаться по семейному положению или удовлетворенности. Gower Distance учитывает все эти факторы и дает более точную картину.

    Сколько кластеров нужно выделять: как определить оптимальное число

    Одна из самых сложных задач при кластеризации — определить, сколько кластеров выделить. Слишком мало — и вы потеряете детали, слишком много — и результаты станут трудными для интерпретации. Оптимальное число кластеров можно определить с помощью метрики silhouette width (ширина силуэта).

    Silhouette width показывает, насколько хорошо каждый сотрудник вписывается в свой кластер. Значение варьируется от -1 до 1:

    - 0,7–1,0 — отличное качество кластеризации

    - 0,5–0,7 — хорошее качество

    - 0,25–0,5 — приемлемое качество

    - Меньше 0,25 — кластеризация слабая

    В IT-компаниях редко удается получить значение выше 0,5, так как данные о сотрудниках часто бывают размытыми. Однако даже значение 0,3 может дать полезные инсайты.

    Кейс: как silhouette width помогла сократить текучку на 18%

    В компании из 150 человек анализ с silhouette width показал, что оптимальное число кластеров — 4. После кластеризации выявились следующие группы:

    1. Молодые специалисты (22–28 лет) — высокая текучка, но низкая стоимость найма

    2. Средний уровень (29–35 лет) — ключевая группа, высокая лояльность, но риск увольнения при отсутствии роста

    3. Эксперты (36+ лет) — низкая текучка, но высокая стоимость замены

    4. HR-блокировщики (все возраста) — сотрудники, которые не увольняются, но блокируют карьерный рост других

    После внедрения персонализированных программ удержания (например, менторство для молодых специалистов, программы релокации для экспертов) текучка снизилась с 14% до 6% за год. При этом затраты на удержание сократились на 30%, так как программы были таргетированы на конкретные группы.

    Интерпретация кластеров: как превратить данные в действия

    После кластеризации важно не только выделить группы, но и понять, какие действия помогут снизить текучку. Для этого нужно проанализировать характеристики каждого кластера и разработать персонализированные стратегии.

    Например, в одной IT-компании после кластеризации выявились три ключевые группы:

    Группа 1: «Золотые цепи» (25% сотрудников)

  • Средний возраст 32 года, зарплата 250 тыс. рублей
  • Высокая вовлеченность, но низкая мобильность из-за семьи
  • - Стратегия: программы внутреннего ротации, гибкий график, корпоративная пенсия

    Группа 2: «Молодые амбициозные» (40% сотрудников)

  • Средний возраст 26 лет, зарплата 150 тыс. рублей
  • Высокая текучка, но низкая стоимость найма
  • - Стратегия: менторство, обучение, прозрачные карьерные лестницы

    Группа 3: «Тихие уволившиеся» (35% сотрудников)

  • Средний возраст 38 лет, зарплата 200 тыс. рублей
  • Низкая вовлеченность, но не проявляют активности
  • - Стратегия: индивидуальные беседы, программы релоцирования, льготы

    Чек-лист: как интерпретировать кластеры

  • [ ] Сравните средние значения ключевых метрик в каждом кластере
  • [ ] Выявите уникальные характеристики (например, только в одном кластере высокая переработка)
  • [ ] Определите, какие кластеры имеют наибольшую текучку
  • [ ] Разработайте персонализированные стратегии удержания
  • [ ] Запустите пилотную программу и измерьте результаты
  • Если у вас нет ресурсов на глубокий анализ, начните с простого: выделите 2–3 кластера по ключевым метрикам (возраст, зарплата, стаж) и разработайте базовые стратегии удержания. Например, для молодых специалистов — программы наставничества, для опытных — гибкий график. Даже такой упрощенный подход даст результат: в одной компании из 40 человек текучка снизилась на 15% за 3 месяца.

    Инструменты и автоматизация: как внедрить кластеризацию без дата-сайентистов

    Внедрение people analytics не требует найма дорогостоящих специалистов. Существует несколько инструментов, которые позволяют провести кластеризацию даже без глубоких знаний в программировании:

    1. R и Python (для аналитиков)

  • Библиотеки: cluster, factoextra (R), scikit-learn (Python)
  • Преимущества: гибкость, возможность кастомизации
  • Недостатки: требуется базовое знание кода
  • 2. Power BI + R/Python (для HR-аналитиков)

  • Интеграция с Power BI позволяет визуализировать результаты кластеризации
  • Преимущества: удобный интерфейс, возможность sharing отчетов
  • Недостатки: ограниченная кастомизация
  • 3. HR-системы с встроенной аналитикой (для HRD)

  • Примеры: 1С:Зарплата и Управление персоналом, SAP SuccessFactors
  • Преимущества: готовые отчеты, интеграция с данными
  • Недостатки: ограниченная гибкость
  • 4. SaaS-платформы для HR-аналитики (для стартапов)

  • Примеры: Visier, Tableau, Qlik Sense
  • Преимущества: облачный доступ, готовые дашборды
  • Недостатки: высокая стоимость для малых компаний
  • Сценарий: как автоматизировать кластеризацию в 3 шага

    Шаг 1: Сбор данных

  • Экспорт данных из HR-системы (например, 1С или SAP)
  • Объединение с данными по проектам, зарплате, обучению
  • Очистка данных (удаление дубликатов, заполнение пропусков)
  • Шаг 2: Кластеризация

  • Выбор ключевых переменных (например, возраст, зарплата, стаж, удовлетворенность)
  • Расчет матрицы расстояний с использованием Gower Distance
  • Определение оптимального числа кластеров с помощью silhouette width
  • Шаг 3: Визуализация и действия

  • Построение дашборда в Power BI или Tableau
  • Разработка персонализированных программ удержания
  • Мониторинг результатов и корректировка стратегии
  • Если у вас нет возможности нанять аналитика, начните с простых инструментов. Например, в компании из 30 человек анализ можно провести в Excel с использованием надстройки XLSTAT или в Google Sheets с помощью макросов. Даже такой подход даст понимание, какие группы сотрудников требуют внимания.

    Риски и ограничения: когда кластеризация не поможет

    Кластеризация данных — мощный инструмент, но у него есть ограничения. Не стоит ожидать чудес, если:

    1. Данные некачественные

  • Если данные неполные или содержат ошибки, результаты кластеризации будут искажены
  • Например, если в HR-системе не заполнены данные по удовлетворенности, кластеры будут неточными
  • 2. Нет связи между кластерами и бизнес-метриками

  • Кластеризация сама по себе не решает проблему текучки — нужно связать результаты с действиями
  • Например, если вы выявили кластер «недовольных», но не разработали программу удержания, текучка не снизится
  • 3. Слишком много кластеров

  • Если вы выделите 10+ кластеров, результаты станут трудными для интерпретации
  • Оптимальное число — 3–6 кластеров, так как большее количество групп сложно масштабировать
  • 4. Нет поддержки руководства

  • Если топ-менеджмент не поддерживает инициативу, программы удержания не будут реализованы
  • Например, если генеральный директор считает, что текучка — нормальное явление, кластеризация не поможет
  • Что делать, если кластеризация не дала результатов

    Если после кластеризации текучка не снизилась, проведите аудит:

  • Проверьте качество данных: возможно, есть ошибки или пропуски
  • Пересмотрите выбранные переменные: может быть, не учли важные факторы (например, качество менеджмента)
  • Проанализируйте действия: возможно, программы удержания были неэффективными
  • Запустите фокус-группы: возможно, проблема не в данных, а в корпоративной культуре
  • В одном случае кластеризация показала, что текучка связана с качеством управления. После внедрения программы обучения менеджеров текучка снизилась на 20%. Это значит, что иногда проблема не в сотрудниках, а в процессах.

    Вывод: с чего начать внедрение people analytics в IT

    Кластеризация данных — это не разовая акция, а долгосрочная стратегия. Чтобы внедрить people analytics в IT-компании, следуйте этому плану:

    1. Начните с малого

  • Соберите данные за последние 12 месяцев
  • Выберите 5–7 ключевых метрик (возраст, зарплата, стаж, удовлетворенность)
  • Проведите кластеризацию в Excel или R
  • 2. Визуализируйте результаты

  • Постройте дашборд в Power BI или Tableau
  • Покажите результаты руководству и HR-команде
  • Проведите пилотную программу удержания для одного кластера
  • 3. Масштабируйте успех

  • Автоматизируйте процесс сбора и анализа данных
  • Разработайте персонализированные программы удержания
  • Мониторьте результаты и корректируйте стратегию
  • Если у вас нет ресурсов на глубокий анализ, начните с простого. Например, в компании из 20 человек можно провести кластеризацию в Excel и разработать базовые программы удержания. Даже такой подход даст результат: снижение текучки на 10–15% за 6 месяцев.

    Если нужна помощь с настройкой процесса или интерпретацией результатов — [оставьте заявку](#request), и мы поможем вам внедрить people analytics в вашей IT-компании.

    Нужна помощь с подбором?

    Мы находим кандидатов за 7 дней и гарантируем замену. Оставьте заявку и получите расчёт бюджета.

    Оставить заявку →

    Теги:

    #hr
    ИД

    Илья Демьянов

    CTO и основатель RekrutAI. Фокусируется на технологиях и продукте. Эксперт по AI-рекрутингу.

    Похожие статьи

    Управление и HR

    Адхократия в IT: как построить гибкую команду и ускорить инновации

    Адхократия — это организационная модель, где принятие решений и распределение задач основаны на инициативе сотрудников, а не на жесткой иерархии. В IT-индустрии, где технологии развиваются с невероятной скоростью, такой подход особенно вост

    28 апреля 2026 г.
    3 мин
    Илья Демьянов
    Управление и HR

    Почему IT-рекрутер — это не просто «тот, кто ищет людей». История от HR-директора

    В 2023 году мы закрывали позицию тимлида для московского офиса IT-стартапа. Кандидат на 80% подходил по резюме: 10 лет в разработке, три года в управлении командой, зарплата в Москве — 650 000 ₽. Но на собеседовании он рассказал, что послед

    26 апреля 2026 г.
    3 мин
    Анастасия Демьянова
    Управление и HR

    Как создать счастливую корпоративную культуру: 7 принципов от эксперта

    Ваша корпоративная культура — это отражение вашего внутреннего мира. Как личность, вы уже обладаете всеми необходимыми качествами для создания успешной и счастливой рабочей среды. Ваша миссия, ценности и стратегия должны быть основаны на эт

    14 апреля 2026 г.
    3 мин
    Анастасия Демьянова

    Оставить заявку на подбор

    Оставьте номер — персональный рекрутер перезвонит в течение 30 минут

    🛡️

    Гарантия замены

    Отчёт за 48ч

    💼

    Персональный рекрутер