Инструменты для захвата и конвертирования Интернета

Web Scraper Documentation

Для создания веб-скрапа необходимо указать пять типов информации, распределенной по следующим вкладкам.

  1. Варианты соскоба
  2. Целевой веб-сайт
  3. Соскоб Инструкции
  4. Параметры экспорта
  5. Расписание Scrape

Варианты соскоба

Все следующие функции доступны для настройки веб-очистки на вкладке Параметры очистки.

Скрести имя Название скребка.

Следуйте за ссылками предоставляет следующие параметры того, как скребок должен следовать по ссылкам:

Игнорировать загрузки файлов один раз установить любые ссылки, которые вызывают загрузку файла при посещении не загружаются.

Игнорировать файл Robots.txt если установлен, скребок может посещать веб-страницы, которые обычно исключаются из сканирования владельцем веб-сайта.

Игнорировать страницы ошибок если установлено, веб-скребок будет пропускать любые веб-страницы, сообщающие об ошибках. Таким образом, любые коды состояния HTTP 400 или выше.

Игнорировать фрагменты URL если установлено, веб-скребок будет игнорировать часть URL-адреса после # эта функция обычно используется для обозначения закладки на той же странице и поэтому обычно приводит к очистке ненужных страниц. Однако некоторые веб-сайты используют эту функцию для отображения другого контента, и в этом случае этот параметр необходимо отключить. Эта опция применима только в том случае, если переход по ссылкам не требуется.

Игнорировать дубликаты если установлено, он будет игнорировать страницы, которые равны или превышают установленное вами сходство, например, вы можете игнорировать страницы, которые имеют 95% одинаковые.

Предел скрести позволяет указать, сколько страниц должен очистить веб-скребок перед остановкой.

Использовать мой часовой пояс если установлено, это означает, что Web Scraper должен попытаться преобразовать любые даты, которые он очищает into ваш местный часовой пояс. Ваш часовой пояс может быть установлен на странице учетной записи.

Район географическое местоположение, из которого Web Scraper будет выполнять очистку. Это может быть полезно, если целевой сайт имеет ограничения в зависимости от местоположения.

Формат даты по умолчанию при преобразовании дат, когда формат даты не может быть определен, вместо этого по умолчанию выбран этот выбранный формат.

Задержка загрузки страницы это время в миллисекундах, которое Web Scraper должен подождать перед анализом страницы. Это очень полезно, если страница содержит много AJAX или загружается медленно.

Целевой веб-сайт

Целевой веб-сайт

На вкладке «Целевой веб-сайт» вы указываете веб-сайты, с которых хотите извлечь данные. Чтобы указать инструменту очистки данные для извлечения данных с веб-сайта, вам сначала необходимо указать основной URL-адрес, который вы используете. intнапример http://www.example.com/shop/ Это когда скребок начнет свою работу, это может быть обычная веб-страница, PDF-документ, XML-документ, JSON-документ, RSS-канал или карта сайта. Если это не веб-страница или PDF-документ, скребок найдет все ссылки в файле и посетит каждую из них.

Чтобы переходить только по ссылкам, найденным в целевом URL, а не на любые последующие страницы, вы можете установить Следуйте за ссылками скрести вариант в на первой странице, Это будет использовать целевой URL только для заполнения остальной части очистки.

Шаблон URL

По умолчанию веб-скребок следует за каждой ссылкой, которую он обнаруживает на каждой веб-странице, которую он посещает. Если вы хотите ограничить ссылки Веб скребок Далее, один из простых способов сделать это — указать шаблон URL-адреса. Этот мощный метод в основном работает путем указания URL-адреса со звездочкой в ​​качестве подстановочного знака, обозначающего, что в этой части шаблона могут присутствовать любые символы. Например http://www.example.com/*/articles/* будет очищать любые URL-адреса, у которых есть статьи в качестве второго каталога из корня сайта.

Более строгий способ определения шаблона URL - определение альтернатив. Например, этот пример будет соответствовать только магазину или новостям: http://www.example.com/ /*

Следовательно, это будет соответствовать этому http://www.example.com/store/products/1 но не http://www.example.com/about/.

Или, альтернативно, можно сопоставить все, кроме чего-то. Например, этот пример не будет соответствовать магазину или новостям: http://www.example.com/ /*

Следовательно, это будет соответствовать этому http://www.example.com/about/ но не http://www.example.com/store/products/1!

Шаблон URL-адреса также может содержать ключевые слова. Ключевое слово — это все, что заключено в двойные квадратные скобки. Так [[URL_START]]www.example.com* будет соответствовать любому допустимому началу URL-адреса, поэтому http://www.example.com/, https://www.example.com/ или даже ftp://www.example.com/ например.

Семенные URL

Исходные URL-адреса позволяют пользователю указывать список URL-адресов, которые должен сканировать Web Scraper. Если вы хотите, чтобы URL-адреса семян были удалены, установите Следуйте за ссылками скрести варианты в нет страниц на вкладке Параметры очистки.

Чтобы установить начальные URL-адреса на вкладке «Целевой веб-сайт», нажмите кнопку «Добавить целевой», затем установите флажок «Задать начальные URL-адреса» и укажите каждый URL-адрес для очистки в отдельной строке.

Создание начальных URL из шаблона URL

В качестве альтернативы вы можете автоматически генерировать начальные URL-адреса с помощью URL-адреса шаблона, это один URL-адрес, который содержит переменную URL-адреса. Переменная URL-адреса задает диапазон чисел, для которого необходимо выполнить итерацию.

Начальный номер - это номер, с которого должна начинаться отсчет переменной URL, конечный номер - это номер, на котором переменная URL прекращает отсчет, номер итерации - это число, которое будет увеличиваться при каждой итерации переменной URL.

Например, для следующего шаблона URL http://www.example.com/search?pageNo=

Затем будут созданы следующие начальные URL:

Выполнить сообщение

URL также может указывать URL с параметрами для POST, например, форму входа. Для этого укажите URL-адрес формы в текстовом поле «Целевой URL-адрес» и добавьте необходимые параметры публикации. Значения пост-переменных также могут включать специальные переменные GrabzIt, такие как:

Соскоб Инструкции

Инструкции по очистке сообщают веб-парсеру, какие действия следует выполнять при очистке целевого веб-сайта. На вкладке «Инструкции по очистке» по умолчанию отображается мастер очистки, который упрощает добавление необходимых инструкций по очистке. Хороший пример использования этого мастера показан в список продуктов и подробное руководство по очистке.

Когда вы будете готовы начать соскабливание, нажмите кнопку Добавить новую инструкцию по очистке ссылку.

Это откроет мастер и автоматически загрузит целевой URL, что позволит вам сразу выбрать то, что вы хотите удалить. Если веб-страница или документ PDF были загружены, вы можете нажать на любую ссылку, и она будет работать как обычно, например, переход на другую веб-страницу. Пока вы не выберете одно из действий, в нижней части экрана, в этой точкеint любые щелчки по контенту будут выбирать элемент HTML, который вы хотите извлечь или манипулировать.

Первое, что нужно понять о командах очистки, это то, что они выполняются на каждой веб-странице по умолчанию. Чтобы остановить это, используйте шаблоны. Шаблон может быть назначен при выполнении действия, такого как нажатие на ссылку, чтобы каждый раз, когда скребок посещал эту ссылку или нажимал на эту кнопку, он распознавал, что он принадлежит назначенному шаблону. Это позволяет определять разные типы страниц. Например, у вас может быть страница категории продукта, которая содержит некоторую обзорную информацию, а затем страницу с подробной информацией, которая содержит информацию о продукте. На обеих страницах, вероятно, потребуется разный набор инструкций по очистке.

Шаблон скребка

Для начала выберите Нажмите действие, затем, как только вы выбрали элементы, которые вы хотите выполнить действие, и нажали Следующая введите название шаблона в поле Создать шаблон Теперь в текстовом поле всякий раз, когда скребок выполняет эти действия, возвращаемым шаблоном будет указанное вами имя.

Затем, чтобы назначить конкретный шаблон инструкции по очистке, вам нужно выбрать нужный шаблон из Выполнить в раскрывающийся список, который появляется в окне параметров, которое появляется непосредственно перед добавлением инструкции по очистке. Три основных варианта при выборе шаблона:

После того, как вы выбрали один из этих параметров, инструкция очистки будет выполняться только на указанном шаблоне.

Извлечение данных

Вы заметите, что когда вы выбираете Извлечение данных действие. В нижнем левом углу экрана предлагается либо выбрать элемент HTML в окне выше, либо выбрать глобальное свойство страницы.

Чтобы использовать глобальное свойство страницы, щелкните значок глобальное свойство страницы ссылка. Затем подтвердите, что хотите продолжить. Теперь у вас будет список свойств, которые можно извлечь прямо со страницы. Например: Заголовок страницы.

Чтобы выбрать один, просто выберите его из списка вариантов и нажмите Следующая добавить данные в Набор данных.

Если вы хотите извлечь данные в определенные элементы HTML, а не принадлежать всей странице, вам нужно щелкнуть соответствующие элементы HTML, вы можете выбрать один или несколько элементов. Однако, если вы выбираете несколько элементов, попробуйте выбрать несколько одинаковых элементов, например несколько строк в столбце, потому что, если скребок не может создать правило, которое может однозначно идентифицировать выбранный набор данных, инструкция очистки не будет быть в состоянии быть созданным. Кроме того, если наш мастер веб-скребка идентифицирует несколько элементов, которые вы нажимаете, как повторяющиеся данные, все повторяющиеся данные в этой же группе будут выбраны автоматически. После того, как вы выбрали все свои один или несколько элементов, выберите атрибут для извлечения в левом нижнем углу экрана и затем нажмите Следующая.

Создание набора данных

Экран набора данных позволяет вам изменить способ обработки данных, например, вы можете переименовать набор данных и столбцы в нем, просто нажмите на имя, чтобы переименовать его. Когда вы добавляете столбец в набор данных, вам также необходимо выбрать шаблон, в котором он будет выполняться. Вы можете изменить это, щелкнув раскрывающийся список под именем столбца.

Часто при извлечении данных некоторые повторяющиеся элементы часто повторяются непоследовательно, чтобы гарантировать, что правильные строки по-прежнему связаны друг с другом. Столбцы ссылок критерии, чтобы связать несовместимые столбцы с наиболее согласованным столбцом в наборе данных.

Чтобы добавить больше данных в набор данных, нажмите на или нажмите кнопку удалить данные из набора данных, или удалить весь набор данных. Набор данных также позволяет применять к данным различные критерии, для этого выберите нужное действие сверху и затем щелкните соответствующий столбец, чтобы применить критерии. Если вы ошиблись при добавлении критерия, просто нажмите .

Вот список различных типов критериев и как их использовать:

Когда вы выбрали одну из вышеперечисленных операций, если она может повлиять на несколько столбцов, она спросит вас, хотите ли вы разрешить, чтобы она влияла только на подмножество столбцов или на все из них. В большинстве случаев вы хотите, чтобы это влияло на все столбцы, однако в некоторых случаях полезно ограничить количество используемых столбцов. Например, если вы выбираете серию метки и значения, которые меняют положение на веб-страницах, вы можете выбрать все метки и значения. Затем в наборе данных используйте операцию equals, чтобы ограничить ее до нужной метки и указать, что затрагиваются только метки и столбцы значений. Это гарантирует, что другие столбцы не будут затронуты удаляемыми строками, для полноты было бы полезно скрыть столбец метки.

Как только вы изменили все, что хотите, нажмите Следующая и ваши инструкции по очистке будут добавлены к ним. Затем у вас есть возможность добавить дальнейшие инструкции по очистке, если хотите.

Управление веб-страницей

Веб-страницей можно манипулировать до ее очистки, щелкая, печатая и выбирая значения в раскрывающихся списках. Важно помнить, что даже если это может привести к загрузке новой веб-страницы, инструкции очистки не будут перезапущены, пока не будут выполнены все применимые инструкции очистки.

Для управления веб-страницей выберите Нажмите Элемент, Элемент наведения, манускрипт, Введите текст or Выберите значение выпадающего списка действия. Если вы выполняете действие щелчка, вы можете нажать на любое количество элементов на веб-странице. В противном случае вы должны выбрать соответствующий элемент HTML, например, текст должен быть напечатан в текстовом поле. Затем нажмите Следующая, Откроется окно параметров, позволяющее завершить действие. При наборе текста и выборе из выпадающего списка должны быть выбраны данные для ввода или выбора соответственно. Кроме этого варианты одинаковы для всех трех действий.

Если вы хотите, вы можете выбрать шаблон, в котором должно быть выполнено это действие, и для действия щелчка, какой шаблон применяется, после того, как действие щелчка завершено. Однако назначение нового шаблона для действия по щелчку, которое выполняет несколько щелчков на одной странице, не является хорошей идеей, например, открытие встроенных всплывающих окон или отображение объектов на экране. Это связано с тем, что если действие щелчка выполняется только для определенных шаблонов, новый шаблон, назначенный первым щелчком, не будет сброшен, и, следовательно, в зависимости от того, как была написана очистка, это может остановить будущие щелчки на той же странице, которая выполняется. Вы также можете определить, хотите ли вы, чтобы это действие выполнялось только один раз, что полезно, если вы делаете что-то вроде входа в систему intвеб-сайт.

Действия «Текст текста» или «Выбрать значение раскрывающегося списка» позволяют вводить несколько элементов текста или выбирать несколько полей выбора соответственно. Они могут быть отредактированы, нажав на инструкции по очистке Изменить или просмотреть переменные Кнопка, как показано на скриншоте слева.

Это может быть важно, например, если вы хотите ввести список имен в поле поиска. Чтобы форма была отправлена ​​только при наличии значения в поле поиска, шаблон можно задавать каждый раз, когда текст вводится успешно. into текстовое поле и действие нажатия на кнопку не выполняется, если этот шаблон не установлен. После того, как действие щелчка было выполнено, шаблон должен был бы быть изменен на что-то другое для сброса процедуры.

После выполнения действий, которые манипулируют веб-сайтами, полезно некоторое время подождать, если действия инициируют функциональность AJAX, чтобы разрешить загрузку содержимого AJAX, прежде чем продолжить очистку. Вы можете сделать это, добавив задержку в Подождать после исполнения текстовое окно.

Возможно, вы захотите перейти сразу к другому URL-адресу, как только будет выполнено какое-то условие. Для этого используйте Перейти к URL действие, которое будет появляться только в том случае, если хотя бы один шаблон был определен в цикле, а созданный должен быть назначен шаблону, чтобы избежать бесконечных циклов.

Наконец, вы можете использовать все API захвата GrabzIt в своих веб-фрагментах, просто выберите действие «Захватить веб-страницу» и выберите желаемый захват. Вы можете ограничить это для захвата определенных веб-страниц в блоке, указав шаблон для выполнения после выбора Следующая .

После добавления каждой команды очистки ее можно увидеть на панели команд очистки, крестик рядом с каждой командой очистки позволяет удалить инструкцию очистки. Если удалена инструкция очистки, которая требуется для других инструкций очистки, эти инструкции также будут удалены. Вы можете изменить порядок инструкций очистки, перетаскивая любые инструкции очистки со значком захвата.

Написание инструкции по очистке вручную

Если вам нужно настроить инструкции очистки более конкретным образом, вам нужно будет изменить инструкции очистки вручную.

Инструкции скраба основаны на JavaScript, а редактор кода поставляется с проверкой синтаксиса, автозаполнением и всплывающими подсказками, чтобы сделать его максимально простым.

Инструкции для веб-скребка Основные функции редактора кода доступны через пункты меню, как показано на скриншоте, назначение каждого из которых объяснено отдельно ниже. В то время как любые синтаксические ошибки в ваших инструкциях скраба указаны в левом желобе редактора кода.

волшебник Мастер позволяет выбрать части страницы, которые вы хотите извлечь, и выполнить другие общие задачи, такие как создание веб-снимков.

Показать инструкции по очистке отображает код инструкции по очистке для пользователя.

Удалить все инструкции удаляет все инструкции по очистке.

Функции веб-страницы введет ключевое слово страницы into очистите инструкции и откройте автозаполнение, которое содержит все возможные Функции страницы, Функции страницы позволяют извлекать данные с веб-страницы.

Функции данных введет ключевое слово данных into инструкции по очистке. Функции данных разрешить вам save Информация.

Функции навигации вводит ключевое слово навигации into редактор кода. Функции навигации позволяют управлять тем, как Web Scraper перемещается по целевому веб-сайту.

Глобальные функции вводит глобальное ключевое слово into инструкции по очистке. Это дает вам доступ к Функции который может хранить данные между разбором различных веб-страниц. При написании инструкций по очистке важно помнить, что состояние переменных JavaScript в инструкциях по очистке не сохраняется, когда скребок перемещается между веб-страницами, если только вы не используете глобальные функции для save переменные, как показано ниже.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Чтобы создать постоянную глобальную переменную, передайте значение true параметру persist в методе Global.set, как показано ниже.

Global.set("myvariable", "hello", true);

Сервисные функции вводит ключевое слово Utility into инструкции по очистке. Это позволяет вам использовать общие функции которые облегчают написание заметок, например, добавление или удаление запросаstring параметры из URL.

Критериальные функции вводит ключевое слово Criteria into инструкции по очистке. Эти Функции позволяет вам уточнить данные, извлеченные во время вашей очистки, такие как удаление дубликатов.

ФИЛЬТР позволяет легко создать фильтр, это требуется некоторым функциям для выбора определенного элемента HTML на веб-странице. Просто выберите атрибуты, которые должен иметь ваш целевой элемент, и / или родитель (ы) элемента должны выбрать этот элемент. Перед тем, как щелкнуть эту опцию, убедитесь, что курсор находится в правильном месте в функции, чтобы пройти фильтр тоже.

Функции скриншота позволяет установить параметры скриншота. Просто поместите курсор в правильную часть функции, как указано в подсказке, и нажмите параметры снимка экрана. Затем выберите все нужные параметры и введите команду.

Струны

Strings используются в инструкциях по очистке при выполнении очистки по сети для определения текста. string ограничен двойным (") или одинарные кавычки ('). Если string начинается с двойной кавычки, она должна заканчиваться двойной кавычкой, если string начинается с одинарной кавычки и заканчивается одинарной кавычкой. Например:

"my-class" и 'my-class'

Распространенная ошибка, которая может произойти, является незакрытой string ошибка, это когда string не имеет закрывающей кавычки, как показано выше, или в string, Следующее незаконно strings:

"my
class"

"my class

Чтобы исправить эту ошибку, убедитесь, что они не содержат разрывов строк и имеют соответствующие кавычки, например:

"my class" и "my class"

Иногда вы хотите, чтобы в string, Самый простой способ сделать это - поместить одну цитату в string ограничены двойными кавычками и двойной кавычкой в string разделенные одинарными кавычками, например так:

"Bob's shop" и '"The best store on the web"'

В качестве альтернативы вы можете использовать обратную косую черту, чтобы избежать кавычек, например:

'test\'s'

Общие задачи по очистке вручную

Проверка ссылок Создать пользовательскую ссылку проверки - узнайте, как создать пользовательскую проверку ссылок, следуя этим простым инструкциям.
Загрузка изображения Скачать все изображения с сайта - узнать, как загрузить все изображения со всего сайта.
Создать набор данных Извлечь данные и преобразовать их intнабор данных - узнайте, как создать набор данных на веб-сайте, который вы просматриваете.
Извлечь ссылки Извлечь ссылки с сайта - узнать, как извлечь все ссылки HTML со всего сайта и save их в формате, который вы хотите.
Выберите текст Извлечение значений из текста с использованием шаблонов - узнать, как использовать шаблоны для извлечения значений из блоков текста.
OCR Извлечь текст из изображений - узнать, как извлечь текст, содержащийся в изображениях.
Dataset Как дополнить набор данных - лучше форматировать извлеченные данные с помощью заполнения.
массив Манипулирующие массивы - узнать, как использовать специальные утилиты для работы с массивами, чтобы легко обрабатывать массивы внутри скрепов.
Действие Выполните действие только один раз во время чистки - узнать, как выполнить действие только один раз за весь цикл.
усовершенствовать Уточнение очищенных данных - Узнайте, как удалить ненужные данные из ваших записок.
Ваш e-mail Соскрести адреса электронной почты с веб-сайта - узнать, как очистить все адреса электронной почты с веб-сайта.
Скриншот Скриншот всего сайта into PDF-файлы или изображения - узнать, как использовать GrabzIt Web Scraper для захвата каждой страницы всего сайта.
Скриншот Извлечение структурированной информации из неструктурированного текста - использовать GrabzIt для извлечения настроений, имен, местоположений и организаций.

Очистка контента, кроме HTML

Когда Web Scraper сталкивается с PDF, XML, JSON и RSS, он преобразует его в приближение HTML, что позволяет нашему Web Scraper правильно его анализировать и выбирать, какой контент вы хотите извлечь. Например, если вы хотите проанализировать данные JSON, он преобразует данные into иерархическое представление HTML, как показано на стороне. Это позволяет строить инструкции по очистке как обычно.

Аналогичным образом, когда скребок загружает документ PDF, PDF преобразуется into HTML, позволяющий выбирать и очищать изображения, гиперссылки, текст и таблицы. Однако, поскольку PDF не имеет реальной структуры, таблицы идентифицируются с использованием эвристики и поэтому не всегда точны.

Параметры экспорта

Эта вкладка позволяет вам выбрать, как вы хотите экспортировать свои результаты, включая электронные таблицы Excel, XML, JSON, CSV, команды SQL или документы HTML. Кроме того, эта вкладка позволяет задать имя результатов архива в сжатом виде. Если вы загружаете только файлы или создаете веб-захваты, вам не нужно выбирать вариант экспорта, поскольку вы просто получите ZIP-файл, содержащий результаты. Эта вкладка также позволяет указать, как вы хотите отправить результаты. Вы можете отправить результаты через Amazon S3, Dropbox, Уведомление по электронной почте, Ftp и WebDav.

Последний вариант - это URL обратного вызова, который позволяет обрабатывать результаты анализа в вашем приложении с помощью нашего скрести API.

Имя файла заархивированных результатов или каждого файла данных, если вы запрашиваете их отправку отдельно, можно установить, сняв отметку с параметра Использовать имя файла по умолчанию и указав желаемое имя файла. Кроме того, к вашему имени файла можно добавить отметку времени, поставив {GrabzIt_Timestamp_UTC+1} в имени файла. +1 обозначает смещение в часах от UTC.

Вы также можете просмотреть результаты очистки, нажав кнопку Просмотр результатов кнопка рядом с твоя царапина, это покажет все результаты очистки в реальном времени, а также предыдущие, выполненные за последние 48 часов.

Расписание Scrape

При создании очистки веб-страниц на вкладке «Расписание очистки» вы можете указать, когда вы хотите, чтобы очистка начиналась, и если вы хотите, чтобы она повторялась, как часто это следует делать. Очистку также можно настроить на запуск при обнаружении изменений на веб-странице. Сделать это Запуск при изменении веб-страницы установите флажок, затем введите URL-адрес веб-страницы, которую нужно отслеживать, а также CSS селектор той части страницы, где вы находитесь intВажно, чтобы была выбрана небольшая часть страницы, чтобы избежать ложных срабатываний из-за несущественных изменений.

Мониторинг и отладка скрапов

После запуска веб-очистки значок статуса изменится на и обработанные страницы начнут увеличиваться со временем. Снимок в реальном времени о прогрессе очистки регулярно создается с файлом журнала, генерируемым вместе с обычным снимком экрана последней веб-страницы, с которой столкнулся скребок. Это позволяет увидеть, что происходит во время чистки. Чтобы найти эту информацию, нажмите на значок расширения рядом с вашим скребком и нажмите программа просмотра за царапины вы intЗаинтересованы. Это должно детализировать, если были какие-либо ошибки, такие как проблемы с вашими инструкциями очистки.

После успешного завершения очистки значок состояния переключится на , если нет результата, открыв программу просмотра журнала и последний скриншот может сказать вам, что пошло не так.

Одна из наиболее распространенных проблем, о которых сообщалось в журналах, это отсутствие достаточной задержки рендеринга для очистки страницы, часто небольшое увеличение Задержка загрузки страницы найдено в Варианты соскоба Вкладки достаточно для большинства сайтов.