Re[8]: Поисковая машина для поиска по сайтам снаружи
От: Alexey Rovdo Россия http://ru.linkedin.com/in/rovdo
Дата: 20.10.20 04:53
Оценка:
Здравствуйте, L.K., Вы писали:

ЕМ>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.