Инструменты для захвата и конвертирования Интернета

Извлечь ссылки с сайта

Этот пример также доступен как шаблон.

Распространенной задачей является извлечение ссылок с веб-сайта, в частности ссылок HTML. К счастью, это легко при использовании Веб-скребок GrabzIt, Прежде всего создайте новый скребок с обычными деталями, такими как стартовая страница скрапа и любые другие параметры.

Затем перейдите во вкладку Соскоб Инструкции вкладку и нажмите Кнопка веб-страницы кнопка. Это войдет в Page ключевое слово into Соскоб инструкции и откроет выпадающий список. Выбрать getTagAttributes из списка. Следующее добавление 'href' в качестве первого параметра это говорит Web Scraper извлечь атрибут href, а затем ввести запятую.

Затем нажмите Кнопка фильтра это позволяет вам указать Web Scraper, из каких элементов извлечь атрибут href. В окне фильтра убедитесь, что тип установлен на «Веб-страница», а ограничение - «имя тега» и «равно». Затем введите a в текстовом поле, а затем нажмите кнопку Добавить, а затем кнопку Вставить фильтр. Завершите инструкцию, добавив точку с запятой в конец строки.

Вы должны остаться с чем-то вроде того, что показано ниже.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

Приведенный выше код извлечет все URL ссылки с веб-страницы, но теперь нам нужно save URL этих ссылок. Для этого мы обернем эту команду минус точка с запятой в Data.save команда. Для этого перейдите в начало строки и выберите Кнопка данных кнопка. Затем в выпадающем списке выберите save, затем перейдите в конец строки и добавьте запятую. Затем добавьте то, что вы хотите назвать набором данных, например «Мой веб-сайт», затем добавьте еще одну запятую, а затем добавьте еще один параметр для описания столбца, например «Ссылки», затем закройте команду с помощью ) перед точкой с запятой.

Теперь у вас должны быть следующие инструкции по очистке.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

Теперь, если вы запустите очистку, вы извлечете все ссылки с сайта. Это создаст таблицу с названием «Мои сайты» с именем столбца «Ссылки», которые затем можно будет экспортировать. into много разных форматов, таких как XML, CSV или электронная таблица. Это руководство также можно было бы выполнить с помощью кнопки мастера на панели инструментов Scrape Instructions.