Одним из наиболее распространенных требований является извлечение данных с веб-сайта и его преобразование. into табличная структура, которую можно экспортировать для дальнейшей обработки. Но что такое набор данных и как он используется в Веб-скребок GrabzIt?
Ниже приведены данные таблицы, содержащиеся в наборе данных прайс-листтаблица состоит из трех столбцов этикетка товара, описание предмета и цена товара.
этикетка товара | описание предмета | цена товара |
---|---|---|
камера | Делает цифровые фотографии | $99.00 |
Для создания этого набора данных вам нужно будет использовать следующие инструкции по очистке.
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
Это использует Data.save
способ добавить значение данных к конкретному Набор данных и обзор, Каждый раз Data.save
Метод вызывается с теми же параметрами набора данных и имени столбца, в который добавляется новая строка. Однако приведенные выше инструкции по очистке не очень полезны, поскольку мы создаем набор данных с использованием статических значений. В приведенном ниже коде показан HTML-код веб-страницы, затем мы напишем инструкции по очистке для динамического извлечения данных со страницы и save it intнабор данных.
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
Теперь мы будем использовать Page.getTagValue
метод для извлечения значений из тегов span.
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
Как вы можете видеть Page.getTagValue
методы используют фильтр, который однозначно идентифицирует HTML-элемент, из которого необходимо извлечь текст. В этом случае фильтры указывают, что атрибут HTML id должен быть равен spnLabel, spnDescription or spnPrice соответственно. Вы можете легко создать фильтр, нажав на значок, который отображает мастер для упрощения построения фильтра.
После того, как вы создали свой набор данных, как мы показали здесь, вы можете решить, как вы хотите экспортировать его на Параметры экспорта меню.