Инструменты для захвата и конвертирования Интернета

Как скачать сайт и весь его контент?

Cайт

В некоторых случаях важно загрузить весь сайт, а не только готовый результат. Но HTML веб-страницы, такие ресурсы, как CSS, скрипты и изображения.

Это может быть потому, что вы хотите сделать резервную копию кода, но по какой-то причине больше не можете получить исходный код. Или, возможно, вы хотите получить подробную информацию о том, как веб-сайт изменился с течением времени.

К счастью, GrabzIt Web Scraper может достичь этого, просматривая все веб-страницы на сайте. Затем на каждой веб-странице скребок загружает HTML вместе с любыми ресурсами, указанными на этой странице.

Создать Scrape для загрузки всего сайта

Чтобы сделать загрузку вашего сайта как можно проще, GrabzIt предоставляет шаблон соскоба. Просто нажмите на это ссылка на шаблон чтобы начать работу.

Как только вы нажмете, ваш скрап будет создан Далее перейдите к Целевые сайты и введите URL-адрес веб-сайта для загрузки в URL Target текстовое окно. Затем нажмите Назначить цель и подождите секунду или две.

Пропустить Соскоб Инструкции и Параметры экспорта и перейдите прямо к Расписание Scrape Вкладка. Затем вы можете нажать Обновить начать очистку. Однако, если вы хотите настроить очистку для регулярного запуска, например, для создания регулярных резервных копий веб-сайта. Затем просто нажмите Повторите Соскоб установите флажок, а затем выберите, как часто вы хотите, чтобы очистка повторялась.

Использование вашего загруженного сайта

Как только очистка закончится, вы получите ZIP-файл. Затем распакуйте ZIP-файл и внутри расположенного в каталоге с названием Files будут все загруженные веб-страницы и ресурсы сайта. Там также будет специальная HTML-страница с именем data.html в корне каталога. Откройте этот файл в веб-браузере, и вы найдете таблицу HTML с тремя столбцами:

  • Resource URL - это URL, по которому веб-скребок обнаружил ресурс. Так, например: http://www.example.com/logo.jog
  • Тип ресурса - это тип ресурса, который был загружен. Есть четыре типа ресурсов.
    • веб-страницы
    • Фото и Галерея и Картика товара
    • Внешний ресурс - любой ресурс, загруженный из тега ссылки.
    • Сценарий
  • Новое имя файла - новое имя файла, которым был ресурс saveг под. Обратите внимание, что этот столбец также содержит ссылку на файл, что значительно упрощает проверку всего загруженного ресурса.

Этот файл предназначен для того, чтобы помочь вам сопоставить новые имена файлов с их старыми местоположениями. Это необходимо, поскольку URL-адрес не может быть напрямую сопоставлен с файловой структурой, поскольку URL-адрес может быть слишком большим для хранения непосредственно в пути к файлу.

Также может быть много перестановок, особенно когда веб-страница может представлять много разного контента путем изменения различных запросов. string параметры! Поэтому вместо этого мы сохраняем веб-сайт в виде плоской структуры в папке с файлами и даем вам файл data.html для сопоставления этих файлов с исходной структурой.

Конечно, из-за этого вы не можете открыть загруженную HTML-страницу и ожидать, что увидите веб-страницу, которую вы видели в Интернете. Для этого вам необходимо переписать пути к изображениям, скриптам, ресурсам CSS и т. Д., Чтобы файл HTML мог найти их в вашей локальной файловой структуре.

Другой файл, который будет включен в корень ZIP-файла, называется Website.csv. Он содержит ту же информацию, что и файл data.html. Однако это включено в случае, если вы хотите читать и обрабатывать загрузку веб-сайта программно, возможно, используя сопоставление URL-адресов с файлами для воссоздания загруженного веб-сайта.