Распространенной задачей является извлечение ссылок с веб-сайта, в частности ссылок HTML. К счастью, это легко при использовании Веб-скребок GrabzIt, Прежде всего создайте новый скребок с обычными деталями, такими как стартовая страница скрапа и любые другие параметры.
Затем перейдите во вкладку Соскоб Инструкции вкладку и нажмите кнопка. Это войдет в
Page
ключевое слово into Соскоб инструкции и откроет выпадающий список. Выбрать getTagAttributes
из списка. Следующее добавление 'href'
в качестве первого параметра это говорит Web Scraper извлечь атрибут href, а затем ввести запятую.
Затем нажмите это позволяет вам указать Web Scraper, из каких элементов извлечь атрибут href. В окне фильтра убедитесь, что тип установлен на «Веб-страница», а ограничение - «имя тега» и «равно». Затем введите
a
в текстовом поле, а затем нажмите кнопку Добавить, а затем кнопку Вставить фильтр. Завершите инструкцию, добавив точку с запятой в конец строки.
Вы должны остаться с чем-то вроде того, что показано ниже.
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Приведенный выше код извлечет все URL ссылки с веб-страницы, но теперь нам нужно save URL этих ссылок. Для этого мы обернем эту команду минус точка с запятой в Data.save
команда. Для этого перейдите в начало строки и выберите кнопка. Затем в выпадающем списке выберите
save
, затем перейдите в конец строки и добавьте запятую. Затем добавьте то, что вы хотите назвать набором данных, например «Мой веб-сайт», затем добавьте еще одну запятую, а затем добавьте еще один параметр для описания столбца, например «Ссылки», затем закройте команду с помощью )
перед точкой с запятой.
Теперь у вас должны быть следующие инструкции по очистке.
Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');
Теперь, если вы запустите очистку, вы извлечете все ссылки с сайта. Это создаст таблицу с названием «Мои сайты» с именем столбца «Ссылки», которые затем можно будет экспортировать. into много разных форматов, таких как XML, CSV или электронная таблица. Это руководство также можно было бы выполнить с помощью кнопки мастера на панели инструментов Scrape Instructions.