Инструменты для захвата и конвертирования Интернета

Как скачать сайт и весь его контент?

Cайт

В некоторых случаях важно загрузить весь сайт, а не только готовый результат. Но HTML веб-страницы, такие ресурсы, как CSS, скрипты и изображения.

Это может быть потому, что вы хотите сделать резервную копию кода, но по какой-то причине больше не можете получить исходный код. Или, возможно, вы хотите получить подробную информацию о том, как веб-сайт изменился с течением времени.

К счастью, GrabzIt Web Scraper может достичь этого, просматривая все веб-страницы на сайте. Затем на каждой веб-странице скребок загружает HTML вместе с любыми ресурсами, указанными на этой странице.

Создать Scrape для загрузки всего сайта

Чтобы сделать загрузку вашего сайта как можно проще, GrabzIt предоставляет шаблон соскоба.

Для начала загрузить этот шаблон.

Затем введите ваш URL Targetэтот URL-адрес автоматически проверяется на наличие ошибок и любых необходимых изменений. Держать Автоматически начать очистку Если флажок установлен, ваш скреб автоматически запустится.

Настройка вашего царапины

Если вы хотите изменить шаблон, снимите флажок Автоматически начать очистку флажок. Одним из изменений может быть регулярное выполнение скрапа, например, создание регулярных копий веб-сайта. На Расписание Scrape вкладку, просто нажмите Повторите Соскоб установите флажок, а затем выберите, как часто вы хотите, чтобы очистка повторялась. Затем нажмите Обновить начать очистку.

Использование вашего загруженного сайта

Как только очистка закончится, вы получите ZIP-файл. Затем распакуйте ZIP-файл и внутри расположенного в каталоге с названием Files будут все загруженные веб-страницы и ресурсы сайта. Там также будет специальная HTML-страница с именем data.html в корне каталога. Откройте этот файл в веб-браузере, и вы найдете таблицу HTML с тремя столбцами:

  • Resource URL - это URL, по которому веб-скребок обнаружил ресурс. Так, например: http://www.example.com/logo.jog
  • Тип ресурса - это тип ресурса, который был загружен. Есть четыре типа ресурсов.
    • веб-страницы
    • Фото товара
    • Внешний ресурс - любой ресурс, загруженный из тега ссылки.
    • Сценарий
  • Новое имя файла - новое имя файла, которым был ресурс saveг под. Обратите внимание, что этот столбец также содержит ссылку на файл, что значительно упрощает проверку всего загруженного ресурса.

Этот файл предназначен для того, чтобы помочь вам сопоставить новые имена файлов с их старыми местоположениями. Это необходимо, поскольку URL-адрес не может быть напрямую сопоставлен с файловой структурой, поскольку URL-адрес может быть слишком большим для хранения непосредственно в пути к файлу.

Также может быть много перестановок, особенно когда веб-страница может представлять много разного контента путем изменения различных запросов. string параметры! Поэтому вместо этого мы сохраняем веб-сайт в виде плоской структуры в папке с файлами и даем вам файл data.html для сопоставления этих файлов с исходной структурой.

Конечно, из-за этого вы не можете открыть загруженную HTML-страницу и ожидать, что увидите веб-страницу, которую вы видели в Интернете. Для этого вам необходимо переписать пути к изображениям, скриптам, ресурсам CSS и т. Д., Чтобы файл HTML мог найти их в вашей локальной файловой структуре.

Другой файл, который будет включен в корень ZIP-файла, называется Website.csv. Он содержит ту же информацию, что и файл data.html. Однако это включено в случае, если вы хотите читать и обрабатывать загрузку веб-сайта программно, возможно, используя сопоставление URL-адресов с файлами для воссоздания загруженного веб-сайта.