Инструменты для захвата и конвертирования Интернета

Уважает ли GrabzIt Web Scraper файлы robots.txt?

Наш Web Scraper должен соблюдать правила, содержащиеся в файле robots.txt веб-сайтов. Одной из основных причин этого, помимо того, что это приятно, является то, что веб-скреберы, которые не следуют файлу robots.txt, могут оказаться в черном списке службы honeypot.

Эти сервисы используют файл robots.txt, чтобы запретить веб-редактору посещать определенный файл, на который ссылается веб-сайт. Если веб-скребок все еще посещает файл, то IP-адрес веб-скребков заносится в черный список, что предотвращает посещение веб-сайта в будущем.