Re[4]: Классификация и теория вероятностей

Здравствуйте, С3141566=Z, Вы писали:

G>>Ага, то есть если вдруг есть очень редкая книга, но моя модель точно знает что пользователь ее купит.
СZ>Откуда он знает, если выборка очень маленькая? перемножение факторов работает в том числе как регуляризация.
Я не уверен. Возьмем к примеру градиентный бустинг. Мультиклассовая классификация. Есть данные — всего 100 000 кейсов. Причем 200 кейсов абсолютно точно классифицируются как класс 2. Допустим это пользователи и, скажем, при возрасте 20 лет это четко 2-й класс. Так вот какова будет вероятность класса — 100% как я думаю? Или как вы написали что-то около 200/100 000 — 0.002. Не знаю как ведет себя GBM в таком случае. Вы знаете?

G>>И второй вопрос, а что если просто линейную регрессию построить по двум переменным, прогноз модели и общая популярность. Так не делают?
СZ>От логарифмов считай регрессию тогда она сойдется при параметрах (а == 1, b == 1) к перемножению условных вероятностей. При других будет что=то более адекватное твоему представлению как оно должно быть.
Есть еще другой вариант — обучающую выборку сформировать таким образом, чтобы распределение классов там соответствовало прогнозируемому. Это будет работать, но не очень практично, придется каждый месяц строить модель исходя из прогноза по классам.

	От:	Gattaka
	Дата:	22.12.16 10:27
	Оценка: