Кластеризация данных о поведении игроков смешанного типа для прогнозирования оттока в мобильных играх
Маркетологи уже давно поняли важность сегментации клиентов и моделирования прогнозирования оттока клиентов. Однако увязка этих процессов остается сложной задачей. Сегментация клиентов часто выполняется путем применения алгоритма кластеризации к данным о поведении клиентов, что является еще одной сложной задачей, поскольку наборы данных о поведении клиентов обычно содержат смешанные типы данных. Это исследование фокусируется на кластеризации данных о поведении игроков для моделирования прогнозирования оттока на рынке мобильных игр и построении показателя различия, способного одновременно обрабатывать категориальные и количественные данные. Проблема нахождения подходящей меры несходства для данных смешанного типа с несбалансированными категориальными признаками и сильно искаженными числовыми признаками решается путем установления гибридной меры несходства, построенной как нормализованная линейная комбинация расстояний. Расстояния рассчитываются в зависимости от типа объекта в соответствии с принципами расчета коэффициента Гауэра, где для числовых объектов расстояния вычисляются с применением модифицированного теоретизированного коэффициента потерь Хубера, в то время как для категориальных объектов мы используем меру расстояния, основанную на переменной энтропии. В сочетании с алгоритмом кластеризации PAM установленная мера различия применяется к реальным наборам данных, и производительность сравнивается с несколькими современными алгоритмами кластеризации. Во-вторых, в этом исследовании исследуется потенциал сегментации клиентов как неотъемлемой части моделирования прогнозирования оттока в онлайн-играх, который реализуется путем применения предлагаемого метода кластеризации к реальному набору данных, содержащему данные смешанного типа, полученные из казуальной мобильной игры. Преимущества сегментации клиентов подтверждаются данными, поскольку модели прогнозирования оттока демонстрируют более высокую производительность, когда кластеризация выполняется до классификации оттока