Вот есть универсальные поисковики "для народа" — Google, Yandex и т.п., но они ищут только там, где считают нужным (и только то, что считают нужным). Указание оператора site лишь сужает выдачу. Если какой-то документ не проиндексирован — он не найдется. Ну и языки запросов с течением времени вырождаются, поскольку подавляющее большинство клиентов их не используют.
На многих сайтах есть собственные поисковики, но качество у них — обычно от убогого до среднего. Как правило, возможности ограничиваются поиском по набору ключевых слов, даже без возможности связать их по "и/или". В итоге находится или очень мало нужного, или очень много лишнего.
Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты. Есть куча локальных поисковиков, но они работают только по локальным же носителям.
Известно, что многие компании регулярно мониторят онлайн-каталоги конкурентов, но для этого каждая городит собственные средства. В то же время есть множество государственных, ведомственных и частных сайтов с открытыми БД (патенты, изобретения, судебные документы, тендеры, архивы выпусков СМИ и т.п.), локальный поиск по которым часто сделан очень примитивно. В итоге заинтересованные лица опять-таки городят свои системы, периодически выкачивающие оттуда весь контент, строящие собственную БД, и уже по ней гоняют локальный поиск.
Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.
Монетизировать это можно было бы как платной подпиской на сервис и лицензией на локальную версию, так и размещением рекламы на бесплатном сервисе. Подозреваю, что такая штука будет очень популярной среди множества разных спецов.
ЕМ>Монетизировать это можно было бы как платной подпиской на сервис и лицензией на локальную версию, так и размещением рекламы на бесплатном сервисе. Подозреваю, что такая штука будет очень популярной среди множества разных спецов.
Можно всю жизнь потратить на бредовую идею.
Прежде чем браться за проект я всегда смотрю количество запросов в инете по моей проблеме.
"индексация стороннего сайта" никто не ищет. Значит клиентов нет. Нет клиентов — нет денег. Finita la comedia.
F>"индексация стороннего сайта" никто не ищет. Значит клиентов нет.
Так можно выкинуть на помойку гениальную и революционную идею.
Сколько народа 30 лет назад искало мобильную связь? Нисколько. Ширнармассы даже не понимали, что такое возможно.
Или кто год назад искал противовирусные маски? Если бы у какой-то компании были наработки в этой области, если бы у них была удобная (не душная, не оставляющая следов на коже) и дешёвая маска, то эта компания нынче озолотилась бы.
Re[2]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, L.K., Вы писали:
LK>Лезешь на главную страницу, бегаешь по ссылкам, постепенно выкачиваешь весь сайт. А потом индексируешь сфинксом. LK>И получится этакий "персональный гугл" на личном хостинге.
Нет, получится очередное, сугубо частное и кривое поделие. Вы определенно не поняли идеи.
Здравствуйте, Евгений Музыченко, Вы писали:
ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.
Раньше существовали desktop search engine — от гугла, от яндекса, кажется еще Евфрат был (или как-то так).
Они позволяли индексировать документы на диске (ворд, эксель, текстовые) и потом по ним делать поиск.
Может они и сейчас существуют (один продукт точно есть, забыл как называется), и может научились сканировать сайты
Плюс сейчас существуют сервисы, и не один, которые отслеживают изменения на определенных сайтах.
Возможно они умеют не только парсить изменения, но и осуществлять поиск.
P.S. А вообще идея мне нравится. Можно подумать детальнее, если не найдется что-то дельное у конкурентов
Best regards, Буравчик
Re[3]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, falcoware, Вы писали:
F>Можно всю жизнь потратить на бредовую идею.
F>Прежде чем браться за проект я всегда смотрю количество запросов в инете по моей проблеме.
С одной стороны верно, а с другой — если бы Джобс тоже предварительно гуглил в trends «телефон, где можно тыкать пальцем» — придумали бы они айфон?
Или Форд со своей шуткой про более быструю лошадь.
М>С одной стороны верно, а с другой — если бы Джобс тоже предварительно гуглил в trends «телефон, где можно тыкать пальцем» — придумали бы они айфон? М>Или Форд со своей шуткой про более быструю лошадь.
Дык у них была ОСЬ и команда и свои компы и технологии и наработки. Это был очевидный шаг.
Тут, Вы, Кулибин, вылетаете один из влагалища на лыжах и хотите всех удивить.
Здравствуйте, L.K., Вы писали:
LK>Да, я не понял, в чём идея.
Идея в том же, что и глобального поисковика типа Google/Yandex, но не для ширнармасс, а для гораздо более узкого круга специалистов (аналитиков, патентоведов, врачей, юристов, журналистов, писателей и др.).
Вот нужно мне, например, найти определенные заявки и документы по товарным знакам. Они есть у Роспатента — в виде каталога по номерам, датам и подобным реквизитам, то полнотекстового поиска там нет. Да, я могу сгородить скрипт, выкачать все это к себе, индексировать и искать. Но следующий, кому это понадобится (а таких множество) снова будет вынужден городить скрипт и т.д. Или обратится в контору, которая это когда-то уже сделала, но только именно по этой конкретной БД.
А еще мне нужно найти определенные статьи в архиве некоторых периодических СМИ. Они тоже есть — в виде ZIP'ов или отдельных нераспознанных страниц. Значит, для этого нужно снова городить отдельный самопал.
Вот если б кто взялся вместо этого зоопарка частных костылей сделать общее решение — это можно было бы превратить в золотую жилу.
Re[5]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, L.K., Вы писали:
LK>Что мешает скормить гуглу команду: LK>ура site:rsdn.ru OR site:sql.ru
Скормить — ничто не мешает. А найти мешает то, что гугл, яндекс и любой массовый поисковик ищет только в том, что индексирует сам. А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
Здравствуйте, Евгений Музыченко, Вы писали:
ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.
То есть хочется enterprise search engine?
Например, есть поисковая система Mindbreeze, которую можно купить как в варианте Appliance (программно-аппаратный комплекс по русски?), так и в виде облачного сервиса. Для вытягивания данных из разных источников и их обработки есть куча так называемых Connectors: https://www.mindbreeze.com/inspire-connectors.html
Re[7]: Поисковая машина для поиска по сайтам снаружи
ЕМ>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.
Можно сделать и отдельный скрипт/утилиту, которая будет запускаться на компе, автоматически всё выкачивать по маске url, индексировать, а потом искать. Получится "локальный поисковик". В принципе, такое делается не сложно.
Re[8]: Поисковая машина для поиска по сайтам снаружи
По факту это то же самое, что те же гугль и яндекс, ну с каким-то нюансами. Прежде, чем за это браться, нужно прикинуть какие требуются мощности для индексаторов и для хранения базы проиндексированного контента. Есть сотни миллионов не рублей на датацентры?
Здравствуйте, PM, Вы писали:
PM>То есть хочется enterprise search engine?
Не, хочется professional targeted search engine. С адекватным набором функций, но без лишних наворотов.
PM>есть поисковая система Mindbreeze
Судя по описанию, это очередное "всеобъемлющее" решение, в котором очень много лишнего, поэтому и ценник (от $30000 в год) выгоден лишь для среднего и крупного бизнеса. Индивидуальному юристу или ученому это и излишне, и чрезмерно дорого.
Re[8]: Поисковая машина для поиска по сайтам снаружи
Здравствуйте, L.K., Вы писали:
LK>Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.
Такое решение будет и кривым (далеко не всегда есть надобность и время выкачивать весь контент для поиска по нему), и однобоким (для каждого сайта нужно вручную писать свои скрипты). Я бы предпочел готовое решение за адекватные деньги.
Re[9]: Поисковая машина для поиска по сайтам снаружи