Re[4]: Классификация и теория вероятностей
От: Gattaka Россия  
Дата: 22.12.16 10:27
Оценка:
Здравствуйте, С3141566=Z, Вы писали:

G>>Ага, то есть если вдруг есть очень редкая книга, но моя модель точно знает что пользователь ее купит.

СZ>Откуда он знает, если выборка очень маленькая? перемножение факторов работает в том числе как регуляризация.
Я не уверен. Возьмем к примеру градиентный бустинг. Мультиклассовая классификация. Есть данные — всего 100 000 кейсов. Причем 200 кейсов абсолютно точно классифицируются как класс 2. Допустим это пользователи и, скажем, при возрасте 20 лет это четко 2-й класс. Так вот какова будет вероятность класса — 100% как я думаю? Или как вы написали что-то около 200/100 000 — 0.002. Не знаю как ведет себя GBM в таком случае. Вы знаете?

G>>И второй вопрос, а что если просто линейную регрессию построить по двум переменным, прогноз модели и общая популярность. Так не делают?

СZ>От логарифмов считай регрессию тогда она сойдется при параметрах (а == 1, b == 1) к перемножению условных вероятностей. При других будет что=то более адекватное твоему представлению как оно должно быть.
Есть еще другой вариант — обучающую выборку сформировать таким образом, чтобы распределение классов там соответствовало прогнозируемому. Это будет работать, но не очень практично, придется каждый месяц строить модель исходя из прогноза по классам.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.