Инструменты для захвата и конвертирования Интернета

Создать пользовательскую ссылку проверки

Этот пример также доступен как шаблон.

Веб-скребок GrabzIt является очень гибким, позволяя выполнять различные онлайн-задачи, такие как проверка ссылок на веб-сайты и создание отчетов, которые не работают.

Первое, что нужно сделать, это создать скрести и назначьте целевой веб-сайт, который вы хотите проверить, а затем используйте приведенный ниже код для получения инструкций.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

Первая строка var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); извлекает все гиперссылки и помещает их в urls переменная. Следующая строка использует Utility.Array.unique способ сделать все URL уникальными.

Третья строка гарантирует, что ссылки не проверяются дважды, для этого мы читаем URL-адреса, которые были ранее saved и отфильтруйте извлеченные ссылки этим. Если вы хотите, чтобы на каждой странице была разорвана ссылка, удалите эту строку.

После очистки данных URL мы перебираем каждый оставшийся URL, сохраняя его в Набор данных вместе с текущей страницей, прежде чем проверять, существует ли URL с помощью Utility.URL.exists метод. Результат этой проверки также saveD в наборе данных.

Кроме того, вы можете проверить, существуют ли изображения веб-сайтов, заменив код Page.getTagAttributes('href', {"tag":{"equals":"a"}}); вместе с Page.getTagAttributes('src', {"tag":{"equals":"img"}});.