Инструменты для захвата и конвертирования Интернета

Извлечь данные и преобразовать их intнабор данных

Одним из наиболее распространенных требований является извлечение данных с веб-сайта и его преобразование. into табличная структура, которую можно экспортировать для дальнейшей обработки. Но что такое набор данных и как он используется в Веб-скребок GrabzIt?

Пример набора данных: прайс-лист

Ниже приведены данные таблицы, содержащиеся в наборе данных прайс-листтаблица состоит из трех столбцов этикетка товара, описание предмета и цена товара.

этикетка товара описание предмета цена товара
камера Делает цифровые фотографии $99.00

Для создания этого набора данных вам нужно будет использовать следующие инструкции по очистке.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

Это использует Data.save способ добавить значение данных к конкретному Набор данных и обзор, Каждый раз Data.save Метод вызывается с теми же параметрами набора данных и имени столбца, в который добавляется новая строка. Однако приведенные выше инструкции по очистке не очень полезны, поскольку мы создаем набор данных с использованием статических значений. В приведенном ниже коде показан HTML-код веб-страницы, затем мы напишем инструкции по очистке для динамического извлечения данных со страницы и save it intнабор данных.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

Теперь мы будем использовать Page.getTagValue метод для извлечения значений из тегов span.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

Как вы можете видеть Page.getTagValue методы используют фильтр, который однозначно идентифицирует HTML-элемент, из которого необходимо извлечь текст. В этом случае фильтры указывают, что атрибут HTML id должен быть равен spnLabel, spnDescription or spnPrice соответственно. Вы можете легко создать фильтр, нажав на Кнопка фильтра значок, который отображает мастер для упрощения построения фильтра.

После того, как вы создали свой набор данных, как мы показали здесь, вы можете решить, как вы хотите экспортировать его на Параметры экспорта Tab.