Re[7]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 17:26
Оценка:
ЕМ>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.

Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.

Можно сделать и отдельный скрипт/утилиту, которая будет запускаться на компе, автоматически всё выкачивать по маске url, индексировать, а потом искать. Получится "локальный поисковик". В принципе, такое делается не сложно.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.