Веб-скребок GrabzIt является очень гибким, позволяя выполнять различные онлайн-задачи, такие как проверка ссылок на веб-сайты и создание отчетов, которые не работают.
Первое, что нужно сделать, это создать скрести и назначьте целевой веб-сайт, который вы хотите проверить, а затем используйте приведенный ниже код для получения инструкций.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
Первая строка var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
извлекает все гиперссылки и помещает их в urls
переменная. Следующая строка использует Utility.Array.unique способ сделать все URL уникальными.
Третья строка гарантирует, что ссылки не проверяются дважды, для этого мы читаем URL-адреса, которые были ранее saved и отфильтруйте извлеченные ссылки этим. Если вы хотите, чтобы на каждой странице была разорвана ссылка, удалите эту строку.
После очистки данных URL мы перебираем каждый оставшийся URL, сохраняя его в Набор данных вместе с текущей страницей, прежде чем проверять, существует ли URL с помощью Utility.URL.exists
метод. Результат этой проверки также saveD в наборе данных.
Кроме того, вы можете проверить, существуют ли изображения веб-сайтов, заменив код Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.