Kaggle
От: The Passenger СССР  
Дата: 19.08.18 07:56
Оценка:
Кто знает — есть какой нибудь толковый топик о том как сабмитить на Каггле?

Ну, то есть, допустим, у меня есть готовая модель и я хочу закоммитить на Каггле, как я могу это сделать?

Спасибо.
Отредактировано 19.08.2018 8:01 пассажир . Предыдущая версия .
Re: Kaggle
От: Джеффри  
Дата: 19.08.18 09:18
Оценка: 5 (1)
Здравствуйте, The Passenger, Вы писали:

TP>Ну, то есть, допустим, у меня есть готовая модель и я хочу закоммитить на Каггле, как я могу это сделать?


Я думаю, что просто абстрактная модель там никому не нужна.

А вообще — находишь соревнование, в котором хочешь учавствовать со своей моделью. Подписываешься на него. Затем два основных варианта.

Либо скачиваешь дата сеты по этому соревнованию. По тренировочному — тюнишь модель, по тестовому — готовишь submission файл и заливаешь его.

Либо создаешь script kernel прямо на сайте (либо на Python, либо на R) и в принципе скрипт делает тоже самое, только выполняется на их стороне и может быть доступен другим участникам.
Re[2]: Kaggle
От: The Passenger СССР  
Дата: 20.08.18 05:09
Оценка:
Здравствуйте, Джеффри, Вы писали:


Д>Либо скачиваешь дата сеты по этому соревнованию. По тренировочному — тюнишь модель, по тестовому — готовишь submission файл и заливаешь его.



так вот в том и вопрос — что за submission файл? Я так понимаю, в зафисимости от фреймворка — тренированные модели сохраняются в разном формате.


Д>Либо создаешь script kernel прямо на сайте (либо на Python, либо на R) и в принципе скрипт делает тоже самое, только выполняется на их стороне и может быть доступен другим участникам.
Re[3]: Kaggle
От: Nuzhny Россия https://github.com/Nuzhny007
Дата: 20.08.18 07:01
Оценка: 4 (1)
Здравствуйте, The Passenger, Вы писали:

TP>так вот в том и вопрос — что за submission файл? Я так понимаю, в зафисимости от фреймворка — тренированные модели сохраняются в разном формате.


В каждом соревновании свой. Например: тут просто csv файл (см. sample_submission.csv).
Re[3]: Kaggle
От: Джеффри  
Дата: 20.08.18 08:01
Оценка: 7 (2)
Здравствуйте, The Passenger, Вы писали:

TP>так вот в том и вопрос — что за submission файл? Я так понимаю, в зафисимости от фреймворка — тренированные модели сохраняются в разном формате.


submission файл — это не модель, а результат твоего предсказания. Как уже сказали выше, формат зависит от соревнования. Допустим есть какой-нибудь Titanic Survival Challenge, где нужно предсказать, что пассажир выживет в кораблекрушении. submission файл будет содержать id пассажира и предсказанную вероятность выживания. После заливки на сервер, твои предсказния сравнят с эталоном, посчитают насколько они точные и сравнят с остальными участниками.

Т.е. как устроена внутри твоя модель, ты можешь вообще не расскрывать, а должен лишь продемонстировать результат ее работы. Но если займешь одно из призовых мест в соревновании, тогда уже нужно будет поделиться с организаторами и реализацией модели, и ее описанием.
Re[4]: Kaggle
От: The Passenger СССР  
Дата: 20.08.18 09:36
Оценка:
Здравствуйте, Джеффри, Вы писали:

Д>submission файл — это не модель, а результат твоего предсказания. Как уже сказали выше, формат зависит от соревнования. Допустим есть какой-нибудь Titanic Survival Challenge, где нужно предсказать, что пассажир выживет в кораблекрушении. submission файл будет содержать id пассажира и предсказанную вероятность выживания. После заливки на сервер, твои предсказния сравнят с эталоном, посчитают насколько они точные и сравнят с остальными участниками.


Но ведь по идее проверочные данные не должны быть доступны пользователю?
а то можно натренировать сеть на проверочных данных и получть хороший результат ... или я чтото не правильно понял?

я думал что происходит так — я тренирую сеть, затем заливаю ее в том или ином виде, а потом они проверяют ее на закрытых тестовых данных.
Re[5]: Kaggle
От: De-Bill  
Дата: 20.08.18 10:09
Оценка:
TP>Но ведь по идее проверочные данные не должны быть доступны пользователю?

Они и так не доступны. Разве что в соревнованиях уровня Titanic, где эту информацию можно получить из других источников. Доступны независимые переменные. Зависимые ты должен отыскать сам. А система сравнит то, что ты нашёл, с реальностью.

TP>я думал что происходит так — я тренирую сеть, затем заливаю ее в том или ином виде, а потом они проверяют ее на закрытых тестовых данных.


Зачем лишние сложности. Ты точно также можешь прогнать на своей машине и отправить результат. Можешь, конечно, что-нибудь руками посчитать. Но, во-первых, это сложно, а во-вторых, если займёшь место, то воспроизвести придётся.
Отредактировано 20.08.2018 10:12 De-Bill . Предыдущая версия .
Re[5]: Kaggle
От: Джеффри  
Дата: 20.08.18 10:25
Оценка: 9 (2)
Здравствуйте, The Passenger, Вы писали:

TP>Но ведь по идее проверочные данные не должны быть доступны пользователю?

TP>а то можно натренировать сеть на проверочных данных и получть хороший результат ... или я чтото не правильно понял?

Конечно, правильные предсказания участникам недоступны. Тебе дают тренировочные данные, которые содержат входные параметры (например, информацию о пассажире) и результат (утонул он или нет), а также дают тестовые данные, которые включают только входные параметры (в таком же формате как и на тренировочном наборе), но без результата.

Дальше нужно строить/настраивать модель по тренировочному набору, после чего применять ее к тестову и полученный результат залить на сайт. В результате ты получишь метрику, которая покажет насколько точно твоя модель сработала на тестовом сете. Но ты по прежнему не будешь знать, какие именно предсказания были правильные, а какие нет.

TP>я думал что происходит так — я тренирую сеть, затем заливаю ее в том или ином виде, а потом они проверяют ее на закрытых тестовых данных.


В общем виде — нет, т.к., во-первых, модель — это вовсе необязательно сеть. Во-вторых, люди могут реализовывать модели на разных языках и они могут физически работь по разному. Опять же учитывая большое кол-во участников и тяжесть многих моделей, сайт может просто лечь при из выполнении.

Тем не менее, такой эффект можно получить через kernel scripts. Это когда ты создаешь на их сайте скрипт на Пайтоне или R, который реализует твою модель. Скрипт выполняется на их сайте, но он работает с теми же данными и формирует такой же submissions файл.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.