Мы решили прогнозировать будущее поведение пользователя по окончании текущей сессии и на выходе получили вероятность покупки в следующие N дней. Другими словами, каждый пользователь, посетивший сайт и не совершивший покупку, получал оценку от 0 до 100. Соответственно, чем выше оценка, тем выше вероятность совершения покупки.
В течение первой недели мы произвели интеграцию с сайтом Орматек. Еще две недели потребовалось на сбор данных и обучение алгоритмов.
В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы команды Segmel. Вначале решили прогнозировать покупку в течение 7 дней, но первые тесты показали, что это слишком короткий период для принятия решения, поэтому перешли на прогноз покупки в течение 14 дней.
Далее мы произвели интеграцию сервиса с Яндекс Метрикой:
Спустя неделю после запуска стриминга и сбора данных о поведении всех пользователей на сайте, команда Segmel принялась за анализ данных и обучение моделей на базе своей платформы. Обучение происходит на отложенной выборке, это значит, что необходимо накопить определенное количество пользователей и конверсий, чтобы получить более качественные метрики.
Каждый пользователь получал оценку (предикт) от 0 до 100, и чем выше предикт, тем выше вероятность совершения покупки в следующие 14 дней. Каждый день вероятность покупки изменяется в зависимости от посещения сайта и действий или отсутствия сессий.
После того, как получили хорошие метрики качества моделей, провели оценку сегментов пользователей. Группы пользователей в зависимости от их количества и статистик объединили в 13 сегментов и выгрузили в Яндекс Метрику. Данная выгрузка необходима для формирования корректировок по сегментам в Яндекс Директ.