Здравствуйте, Gattaka, Вы писали:
G>Здравствуйте, С3141566=Z, Вы писали:
G>>>Ага, то есть если вдруг есть очень редкая книга, но моя модель точно знает что пользователь ее купит. СZ>>Откуда он знает, если выборка очень маленькая? перемножение факторов работает в том числе как регуляризация. G>Я не уверен. Возьмем к примеру градиентный бустинг. Мультиклассовая классификация. Есть данные — всего 100 000 кейсов. Причем 200 кейсов абсолютно точно классифицируются как класс 2. Допустим это пользователи и, скажем, при возрасте 20 лет это четко 2-й класс. Так вот какова будет вероятность класса — 100% как я думаю? Или как вы написали что-то около 200/100 000 — 0.002. Не знаю как ведет себя GBM в таком случае. Вы знаете?
В этом случае, вероятность покупки будет раскладываться как P(покупки) = Нормировочный множитель * P(покупки | класс) * P(класс), нормировку можешь взять путем усреднения ответов всех классификаторов. Как ты тренируешь модель (бустингом или еще чем) значения почти не имеет,точнее в тонких случаях имеет, но это к данной ситуации не имеет отнощения.
G>Есть еще другой вариант — обучающую выборку сформировать таким образом, чтобы распределение классов там соответствовало прогнозируемому. Это будет работать, но не очень практично, придется каждый месяц строить модель исходя из прогноза по классам.
Хрень получится, либо перетрен.