Инструменты для захвата и конвертирования Интернета

Web Scraper Documentation

Для создания веб-скрапа необходимо указать пять типов информации, распределенной по следующим вкладкам.

  1. Варианты соскоба
  2. Целевые сайты
  3. Соскоб Инструкции
  4. Параметры экспорта
  5. Расписание Scrape

Варианты соскоба

Все следующие функции доступны для настройки веб-очистки на вкладке Параметры очистки.

Скрести имя Название скребка.

Следуйте за ссылками предоставляет следующие параметры того, как скребок должен следовать по ссылкам:

  • при необходимости - настройка по умолчанию и самая безопасная опция, поэтому скребок будет следовать только по ссылкам, указанным в инструкции.
  • все страницы - скребок будет переходить по каждой найденной ссылке
  • первая страница - переходите только по ссылкам, найденным на первой странице, указанной в качестве цели
  • вплоть до n страницы с начальной страницы - переходите только по ссылкам на страницах с указанным количеством кликов с первой страницы
  • в фреймах - переходите по ссылкам, найденным в фреймах и в фреймах

Игнорировать файл Robots.txt если установлен, скребок может посещать веб-страницы, которые обычно исключаются из сканирования владельцем веб-сайта.

Игнорировать загрузки файлов один раз установить любые ссылки, которые вызывают загрузку файла при посещении не загружаются.

Игнорировать дубликаты если установлено, он будет игнорировать страницы, которые равны или превышают установленное вами сходство, например, вы можете игнорировать страницы, которые имеют 95% одинаковые.

Предел скрести позволяет указать, сколько страниц должен очистить веб-скребок перед остановкой.

Использовать мой часовой пояс если установлено, это означает, что Web Scraper должен попытаться преобразовать любые даты, которые он очищает into ваш местный часовой пояс. Ваш часовой пояс может быть установлен на странице учетной записи.

Место нахождения географическое местоположение, из которого Web Scraper будет выполнять очистку. Это может быть полезно, если целевой сайт имеет ограничения в зависимости от местоположения.

Формат даты по умолчанию при преобразовании дат, когда формат даты не может быть определен, вместо этого по умолчанию выбран этот выбранный формат.

Задержка загрузки страницы это время в миллисекундах, которое Web Scraper должен подождать перед анализом страницы. Это очень полезно, если страница содержит много AJAX или загружается медленно.

Целевые сайты

Целевые сайты

На вкладке Целевые сайты вы указываете сайты, с которых хотите извлечь данные. Чтобы указать инструменту Scrape для извлечения данных с веб-сайта, сначала необходимо указать основной URL-адрес, которым вы являетесь. intнапример http://www.example.com/shop/ Это когда скребок начнет свою работу, это может быть обычная веб-страница, PDF-документ, XML-документ, JSON-документ, RSS-канал или карта сайта. Если это не веб-страница или PDF-документ, скребок найдет все ссылки в файле и посетит каждую из них.

Чтобы переходить только по ссылкам, найденным в целевом URL, а не на любые последующие страницы, вы можете установить Следуйте за ссылками скрести вариант в на первой странице, Это будет использовать целевой URL только для заполнения остальной части очистки.

По умолчанию веб-скребок следует за каждой ссылкой, которую он обнаруживает на каждой веб-странице, которую он посещает. Если вы хотите ограничить ссылки Веб скребок Далее, один простой способ сделать это - указать шаблон URL. Это работает путем указания URL-адреса со звездочкой в ​​качестве подстановочного знака, обозначающего, что в этой части шаблона могут присутствовать любые символы. Например http://www.example.com/*/articles/* будет очищать любые URL-адреса, у которых есть статьи в качестве второго каталога из корня сайта.

URL также может указывать URL с параметрами для POST, например, форму входа. Для этого укажите URL-адрес формы в текстовом поле «Целевой URL-адрес» и добавьте необходимые параметры публикации. Значения пост-переменных также могут включать специальные переменные GrabzIt, такие как:

  • {{day}} - день как двузначное значение
  • {{month}} - месяц как двузначное значение
  • {{year}} - год в виде четырехзначного значения
  • {{hour}} - час как двузначное значение
  • {{minute}} - минуты в виде двузначного значения
  • {{second}} - секунда в виде двузначного значения

Наконец, вы можете указать Семенные URL чтобы убедиться, что эти URL-адреса будут удалены.

Семенные URL

Исходные URL-адреса позволяют пользователю указывать список URL-адресов, которые должен сканировать Web Scraper. Если вы хотите, чтобы URL-адреса семян были удалены, установите Следуйте за ссылками скрести варианты в нет страниц на вкладке Параметры очистки.

Чтобы установить URL-адреса семян на вкладке «Целевые сайты», нажмите кнопку «Добавить цель», затем установите флажок «Задать URL-адреса семян» и укажите каждый URL-адрес для переноса в отдельной строке.

Создание начальных URL из шаблона URL

В качестве альтернативы вы можете автоматически генерировать начальные URL-адреса с помощью URL-адреса шаблона, это один URL-адрес, который содержит переменную URL-адреса. Переменная URL-адреса задает диапазон чисел, для которого необходимо выполнить итерацию.

{{start number|finish number|iterate number}}

  • стартовый номер номер, с которого начинается переменная URL
  • конечный номер номер, на котором переменная URL заканчивается
  • номер итерации номер, по которому итерация переменной URL

Начальный номер - это номер, с которого должна начинаться отсчет переменной URL, конечный номер - это номер, на котором переменная URL прекращает отсчет, номер итерации - это число, которое будет увеличиваться при каждой итерации переменной URL.

Например, для следующего шаблона URL http://www.example.com/search?pageNo={{1|3|1}}

Затем будут созданы следующие начальные URL:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Соскоб Инструкции

Инструкции по очистке сообщают Web Scraper, какие действия необходимо выполнить при очистке целевых веб-сайтов. На вкладке «Инструкции по очистке» по умолчанию отображается мастер очистки, что позволяет легко добавлять необходимые инструкции по очистке. Для начала нажмите Добавить новую инструкцию по очистке связь.

Это откроет мастер и автоматически загрузит целевой URL, что позволит вам сразу выбрать то, что вы хотите удалить. Если веб-страница или документ PDF были загружены, вы можете нажать на любую ссылку, и она будет работать как обычно, например, переход на другую веб-страницу. Пока вы не выберете одно из действий, в нижней части экрана, в этой точкеint любые щелчки по контенту будут выбирать элемент HTML, который вы хотите извлечь или манипулировать.

Первое, что нужно понять о командах очистки, это то, что они выполняются на каждой веб-странице по умолчанию. Чтобы остановить это, используйте шаблоны. Шаблон может быть назначен при выполнении действия, такого как нажатие на ссылку, чтобы каждый раз, когда скребок посещал эту ссылку или нажимал на эту кнопку, он распознавал, что он принадлежит назначенному шаблону. Это позволяет определять разные типы страниц. Например, у вас может быть страница категории продукта, которая содержит некоторую обзорную информацию, а затем страницу с подробной информацией, которая содержит информацию о продукте. На обеих страницах, вероятно, потребуется разный набор инструкций по очистке.

Шаблон скребка

Для начала выберите щелчок действие, затем, как только вы выбрали элементы, которые вы хотите выполнить действие, и нажали Следующяя введите название шаблона в поле Создать шаблон Теперь в текстовом поле всякий раз, когда скребок выполняет эти действия, возвращаемым шаблоном будет указанное вами имя.

Затем, чтобы назначить конкретный шаблон инструкции по очистке, вам нужно выбрать нужный шаблон из Выполнить в раскрывающийся список, который появляется в окне параметров, которое появляется непосредственно перед добавлением инструкции по очистке. Три основных варианта при выборе шаблона:

  • Все страницы - не используйте шаблон, для этой инструкции по очистке, инструкция по очистке будет выполнена на всех веб-страницах.
  • Шаблон по умолчанию - не используйте один из пользовательских шаблонов. Инструкция очистки будет выполнена на любой веб-странице, для которой не указан шаблон.
  • Пользовательский шаблон - один из шаблонов, которые вы определили для идентификации конкретной веб-страницы или действия.

После того, как вы выбрали один из этих параметров, инструкция очистки будет выполняться только на указанном шаблоне.

Извлечение данных

Вы заметите, что когда вы выбираете Извлечение данных Действие - набор элементов данных для извлечения немедленно становится доступным для загрузки в левом нижнем углу экрана. Это свойства всей страницы, которые вы можете скачать. Чтобы выбрать один, просто выберите его из списка вариантов и нажмите Следующяя добавить данные в Набор данных.

Если вы хотите извлечь данные в определенные элементы HTML, а не принадлежать всей странице, вам нужно щелкнуть соответствующие элементы HTML, вы можете выбрать один или несколько элементов. Однако, если вы выбираете несколько элементов, попробуйте выбрать несколько одинаковых элементов, например несколько строк в столбце, потому что, если скребок не может создать правило, которое может однозначно идентифицировать выбранный набор данных, инструкция очистки не будет быть в состоянии быть созданным. Кроме того, если наш мастер веб-скребка идентифицирует несколько элементов, которые вы нажимаете, как повторяющиеся данные, все повторяющиеся данные в этой же группе будут выбраны автоматически. После того, как вы выбрали все свои один или несколько элементов, выберите атрибут для извлечения в левом нижнем углу экрана и затем нажмите Следующяя.

Создание набора данных

Экран набора данных позволяет вам изменить способ обработки данных, например, вы можете переименовать набор данных и столбцы в нем, просто нажмите на имя, чтобы переименовать его. Когда вы добавляете столбец в набор данных, вам также необходимо выбрать шаблон, в котором он будет выполняться. Вы можете изменить это, щелкнув раскрывающийся список под именем столбца.

Часто при извлечении данных некоторые повторяющиеся элементы часто повторяются непоследовательно, чтобы гарантировать, что правильные строки по-прежнему связаны друг с другом. Столбцы ссылок критерии, чтобы связать несовместимые столбцы с наиболее согласованным столбцом в наборе данных.

Чтобы добавить больше данных в набор данных, нажмите на или нажмите кнопку удалить данные из набора данных, или удалить весь набор данных. Набор данных также позволяет применять к данным различные критерии, для этого выберите нужное действие сверху и затем щелкните соответствующий столбец, чтобы применить критерии. Если вы ошиблись при добавлении критерия, просто нажмите Кнопка.

Вот список различных типов критериев и как их использовать:

  • Предельные ряды - это ограничит количество строк, извлеченных из веб-страницы, до указанного вами числа. Для использования нажмите а затем нажмите на строку за, которую вы хотите отрезать.
  • Повторить - повторяет элементы столбца до тех пор, пока столбец не будет соответствовать длине самого длинного столбца. Чтобы использовать просто нажмите и затем щелкните столбец, для которого вы хотите повторить пункты.
  • Сделать уникальным - удаляет все повторяющиеся значения для всех введенных значений intстолбец Чтобы использовать просто нажмите и затем щелкните столбец, который вы хотите сделать уникальным.
  • Извлечь ценности - указать шаблон для извлечения только совпадающих элементов данных из блока текста. Чтобы использовать просто нажмите выберите соответствующий столбец и затем следуйте инструкциям, чтобы создать шаблон, который будет возвращать соответствующие данные из string.
  • Trim Values - укажите шаблон для обрезки лишнего текста. Чтобы использовать просто нажмите выберите соответствующий столбец и следуйте инструкциям, чтобы создать шаблон, который будет обрезать текст.
  • Столбцы ссылок - позволяет связать столбцы вместе. Таким образом, при извлечении данных записи будут отображаться в той же строке, что и относительная строка в связанном столбце, даже в случае несоответствия количества результатов. Чтобы использовать просто нажмите выберите столбец для ссылки, а затем столбец для ссылки.
  • Скрыть столбец - иногда вы хотите включить столбец для фильтрации, но не хотите включать значения в окончательный результат. Для этого просто нажмите выберите столбец, который вы хотите исключить.
  • Сортировать по возрастанию - сортировка по столбцу по возрастанию. Для использования нажмите а затем выберите столбец для сортировки.
  • Сортировать по убыванию - сортировка по столбцу по убыванию. Для использования нажмите а затем выберите столбец для сортировки.
  • Комплект - включать только значения, которые содержат определенное значение. Для использования нажмите выберите нужный столбец и введите значение, которое должны содержать значения столбца.
  • Равно - включать только значения, которые равны определенному значению. Для использования нажмите выберите нужный столбец и затем введите значение, которому должны соответствовать значения столбца.
  • Не равно - включать только значения, которые не равны определенному значению. Для использования нажмите выберите нужный столбец и затем введите значение, которому столбец не должен быть равен.
  • Меньше, чем - включать только значения, которые меньше, чем определенное значение. Для использования нажмите чтобы выбрать нужный столбец, а затем введите значение, столбец должен быть меньше, чем.
  • Больше чем - включать только значения, которые больше, чем определенное значение. Для использования нажмите чтобы выбрать нужный столбец, а затем введите значение, столбец должен быть больше, чем.

Когда вы выбрали одну из вышеперечисленных операций, если она может повлиять на несколько столбцов, она спросит вас, хотите ли вы разрешить, чтобы она влияла только на подмножество столбцов или на все из них. В большинстве случаев вы хотите, чтобы это влияло на все столбцы, однако в некоторых случаях полезно ограничить количество используемых столбцов. Например, если вы выбираете серию метки и значения, которые меняют положение на веб-страницах, вы можете выбрать все метки и значения. Затем в наборе данных используйте операцию equals, чтобы ограничить ее до нужной метки и указать, что затрагиваются только метки и столбцы значений. Это гарантирует, что другие столбцы не будут затронуты удаляемыми строками, для полноты было бы полезно скрыть столбец метки.

Как только вы изменили все, что хотите, нажмите Следующяя и ваши инструкции по очистке будут добавлены к очистке.

Управление веб-страницей

Веб-страницей можно манипулировать до ее очистки, щелкая, печатая и выбирая значения в раскрывающихся списках. Важно помнить, что даже если это может привести к загрузке новой веб-страницы, инструкции очистки не будут перезапущены, пока не будут выполнены все применимые инструкции очистки.

Для управления веб-страницей выберите Нажмите Элемент, Элемент наведения, манускрипт, Введите текст or Выберите значение выпадающего списка действия. Если вы выполняете действие щелчка, вы можете нажать на любое количество элементов на веб-странице. В противном случае вы должны выбрать соответствующий элемент HTML, например, текст должен быть напечатан в текстовом поле. Затем нажмите Следующяя, Откроется окно параметров, позволяющее завершить действие. При наборе текста и выборе из выпадающего списка должны быть выбраны данные для ввода или выбора соответственно. Кроме этого варианты одинаковы для всех трех действий.

Если вы хотите, вы можете выбрать шаблон, в котором должно быть выполнено это действие, и для действия щелчка, какой шаблон применяется, после того, как действие щелчка завершено. Однако назначение нового шаблона для действия по щелчку, которое выполняет несколько щелчков на одной странице, не является хорошей идеей, например, открытие встроенных всплывающих окон или отображение объектов на экране. Это связано с тем, что если действие щелчка выполняется только для определенных шаблонов, новый шаблон, назначенный первым щелчком, не будет сброшен, и, следовательно, в зависимости от того, как была написана очистка, это может остановить будущие щелчки на той же странице, которая выполняется. Вы также можете определить, хотите ли вы, чтобы это действие выполнялось только один раз, что полезно, если вы делаете что-то вроде входа в систему intвеб-сайт.

Действия «Текст текста» или «Выбрать значение раскрывающегося списка» позволяют вводить несколько элементов текста или выбирать несколько полей выбора соответственно. Они могут быть отредактированы, нажав на инструкции по очистке Изменить или просмотреть переменные Кнопка, как показано на скриншоте слева.

Это может быть важно, например, если вы хотите ввести список имен в поле поиска. Чтобы форма была отправлена ​​только при наличии значения в поле поиска, шаблон можно задавать каждый раз, когда текст вводится успешно. into текстовое поле и действие нажатия на кнопку не выполняется, если этот шаблон не установлен. После того, как действие щелчка было выполнено, шаблон должен был бы быть изменен на что-то другое для сброса процедуры.

После выполнения действий, которые манипулируют веб-сайтами, полезно некоторое время подождать, если действия инициируют функциональность AJAX, чтобы разрешить загрузку содержимого AJAX, прежде чем продолжить очистку. Вы можете сделать это, добавив задержку в Подождать после исполнения текстовое окно.

Возможно, вы захотите перейти сразу к другому URL-адресу, как только будет выполнено какое-то условие. Для этого используйте Перейти к URL действие, которое будет появляться только в том случае, если хотя бы один шаблон был определен в цикле, а созданный должен быть назначен шаблону, чтобы избежать бесконечных циклов.

Наконец, вы можете использовать все API захвата GrabzIt в своих веб-фрагментах, просто выберите действие «Захватить веб-страницу» и выберите желаемый захват. Вы можете ограничить это для захвата определенных веб-страниц в блоке, указав шаблон для выполнения после выбора Следующяя Кнопка.

После добавления каждой команды очистки ее можно увидеть на панели команд очистки, крестик рядом с каждой командой очистки позволяет удалить инструкцию очистки. Если удалена инструкция очистки, которая требуется для других инструкций очистки, эти инструкции также будут удалены. Вы можете изменить порядок инструкций очистки, перетаскивая любые инструкции очистки со значком захвата.

Написание инструкции по очистке вручную

Если вам нужно настроить инструкции по очистке более конкретным способом или если вы хотите выполнить код до или после соскобов вам нужно будет изменить инструкции по очистке вручную.

Инструкции скраба основаны на JavaScript, а редактор кода поставляется с проверкой синтаксиса, автозаполнением и всплывающими подсказками, чтобы сделать его максимально простым.

Инструкции для веб-скребка Основные функции редактора кода доступны через пункты меню, как показано на скриншоте, назначение каждого из которых объяснено отдельно ниже. В то время как любые синтаксические ошибки в ваших инструкциях скраба указаны в левом желобе редактора кода.

волшебник Мастер позволяет выбрать части страницы, которые вы хотите извлечь, и выполнить другие общие задачи, такие как создание веб-снимков.

Показать инструкции по очистке отображает код инструкции по очистке для пользователя.

Удалить все инструкции удаляет все инструкции по очистке.

Функции веб-страницы введет ключевое слово страницы into очистите инструкции и откройте автозаполнение, которое содержит все возможные Функции страницы, Функции страницы позволяют извлекать данные с веб-страницы.

Функции данных введет ключевое слово данных into инструкции по очистке. Функции данных разрешить вам save Информация.

Функции навигации вводит ключевое слово навигации into редактор кода. Функции навигации позволяют вам управлять тем, как Web Scraper перемещается по целевым веб-сайтам.

Глобальные функции вводит глобальное ключевое слово into инструкции по очистке. Это дает вам доступ к Функции который может хранить данные между разбором различных веб-страниц. При написании инструкций по очистке важно помнить, что состояние переменных JavaScript в инструкциях по очистке не сохраняется, когда скребок перемещается между веб-страницами, если только вы не используете глобальные функции для save переменные, как показано ниже.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Чтобы создать постоянную глобальную переменную, передайте значение true параметру persist в методе Global.set, как показано ниже.

Global.set("myvariable", "hello", true);

Сервисные функции вводит ключевое слово Utility into инструкции по очистке. Это позволяет вам использовать общие функции которые облегчают написание заметок, например, добавление или удаление запросаstring параметры из URL.

Критериальные функции вводит ключевое слово Criteria into инструкции по очистке. Эти Функции позволяет вам уточнить данные, извлеченные во время вашей очистки, такие как удаление дубликатов.

Фильтр позволяет легко создать фильтр, это требуется некоторым функциям для выбора определенного элемента HTML на веб-странице. Просто выберите атрибуты, которые должен иметь ваш целевой элемент, и / или родитель (ы) элемента должны выбрать этот элемент. Перед тем, как щелкнуть эту опцию, убедитесь, что курсор находится в правильном месте в функции, чтобы пройти фильтр тоже.

Функции скриншота позволяет установить параметры скриншота. Просто поместите курсор в правильную часть функции, как указано в подсказке, и нажмите параметры снимка экрана. Затем выберите все нужные параметры и введите команду.

Выполнение действий до или после очистки

Вы можете запускать команды до или после очистки, используя раскрывающийся список параметров в верхней части вкладки Инструкции очистки. Любые команды, введенные при Выполнить после чистки выбран будет запущен после завершения очистки. В то время как любые команды вводятся, когда Выполнить перед соскоб выбран будет запущен до начала очистки.

Однако, когда в любом из этих двух специальных режимов есть только подмножество доступных инструкций очистки. Доступные команды - это команды Data, Global и Navigation scrape.

Strings

Strings используются в инструкциях по очистке при выполнении очистки по сети для определения текста. string ограничен двойным (") или одинарные кавычки ('). Если string начинается с двойной кавычки, она должна заканчиваться двойной кавычкой, если string начинается с одинарной кавычки и заканчивается одинарной кавычкой. Например:

"my-class" и 'my-class'

Распространенная ошибка, которая может произойти, является незакрытой string ошибка, это когда string не имеет закрывающей кавычки, как показано выше, или в string, Следующее незаконно strings:

"my
class"

"my class

Чтобы исправить эту ошибку, убедитесь, что они не содержат разрывов строк и имеют соответствующие кавычки, например:

"my class" и "my class"

Иногда вы хотите, чтобы в string, Самый простой способ сделать это - поместить одну цитату в string ограничены двойными кавычками и двойной кавычкой в string разделенные одинарными кавычками, например так:

"Bob's shop" и '"The best store on the web"'

В качестве альтернативы вы можете использовать обратную косую черту, чтобы избежать кавычек, например:

'test\'s'

Общие задачи по очистке вручную

Проверка ссылок Создать пользовательскую ссылку проверки - узнайте, как создать пользовательскую проверку ссылок, следуя этим простым инструкциям.
Загрузка изображения Скачать все изображения с сайта - узнать, как загрузить все изображения со всего сайта.
Создать набор данных Извлечь данные и преобразовать их intнабор данных - узнайте, как создать набор данных на веб-сайте, который вы просматриваете.
Извлечь ссылки Извлечь ссылки с сайта - узнать, как извлечь все ссылки HTML со всего сайта и save их в формате, который вы хотите.
Выберите текст Извлечение значений из текста с использованием шаблонов - узнать, как использовать шаблоны для извлечения значений из блоков текста.
OCR Извлечь текст из изображений - узнать, как извлечь текст, содержащийся в изображениях.
Dataset Как дополнить набор данных - лучше форматировать извлеченные данные с помощью заполнения.
массив Манипулирующие массивы - узнать, как использовать специальные утилиты для работы с массивами, чтобы легко обрабатывать массивы внутри скрепов.
Экшен Выполните действие только один раз во время чистки - узнать, как выполнить действие только один раз за весь цикл.
усовершенствовать Уточнение очищенных данных - Узнайте, как удалить ненужные данные из ваших записок.
Адрес электронной почты Соскрести адреса электронной почты с веб-сайта - узнать, как очистить все адреса электронной почты с веб-сайта.
Скриншот Скриншот всего сайта into PDF-файлы или изображения - узнать, как использовать GrabzIt Web Scraper для захвата каждой страницы всего сайта.
Скриншот Извлечение структурированной информации из неструктурированного текста - использовать GrabzIt для извлечения настроений, имен, местоположений и организаций.

Очистка контента, кроме HTML

Когда Web Scraper сталкивается с PDF, XML, JSON и RSS, он преобразует его в приближение HTML, что позволяет нашему Web Scraper правильно его анализировать и выбирать, какой контент вы хотите извлечь. Например, если вы хотите проанализировать данные JSON, он преобразует данные into иерархическое представление HTML, как показано на стороне. Это позволяет строить инструкции по очистке как обычно.

Аналогичным образом, когда скребок загружает документ PDF, PDF преобразуется into HTML, позволяющий выбирать и очищать изображения, гиперссылки, текст и таблицы. Однако, поскольку PDF не имеет реальной структуры, таблицы идентифицируются с использованием эвристики и поэтому не всегда точны.

Параметры экспорта

Эта вкладка позволяет вам выбрать, как вы хотите экспортировать свои результаты, включая электронные таблицы Excel, XML, JSON, CSV, команды SQL или документы HTML. Кроме того, эта вкладка позволяет задать имя результатов архива в сжатом виде. Если вы загружаете только файлы или создаете веб-захваты, вам не нужно выбирать вариант экспорта, поскольку вы просто получите ZIP-файл, содержащий результаты. Эта вкладка также позволяет указать, как вы хотите отправить результаты. Вы можете отправить результаты через Amazon S3, Dropbox, Уведомление по электронной почте, Ftp и WebDav.

Последний вариант - это URL обратного вызова, который позволяет обрабатывать результаты анализа в вашем приложении с помощью нашего скрести API.

Имя файла заархивированных результатов или каждого файла данных, если вы запрашиваете их отправку отдельно, можно установить, сняв флажок «Использовать имя файла по умолчанию» и задав желаемое имя файла.

Расписание Scrape

При создании веб-очистки вкладка «Расписание очистки» позволяет указать, когда вы хотите, чтобы очистка запускалась и если вы хотите, чтобы она повторялась, как часто она должна это делать.

Мониторинг и отладка скрапов

После запуска веб-очистки значок статуса изменится на и обработанные страницы начнут увеличиваться со временем. Снимок в реальном времени о прогрессе очистки регулярно создается с файлом журнала, генерируемым вместе с обычным снимком экрана последней веб-страницы, с которой столкнулся скребок. Это позволяет увидеть, что происходит во время чистки. Чтобы найти эту информацию, нажмите на значок расширения рядом с вашим скребком и нажмите программа просмотра за царапины вы intЗаинтересованы. Это должно детализировать, если были какие-либо ошибки, такие как проблемы с вашими инструкциями очистки.

После успешного завершения очистки значок состояния переключится на , если нет результата, открыв программу просмотра журнала и последний скриншот может сказать вам, что пошло не так.

Одна из наиболее распространенных проблем, о которых сообщалось в журналах, это отсутствие достаточной задержки рендеринга для очистки страницы, часто небольшое увеличение Задержка загрузки страницы найдено в Варианты соскоба Вкладки достаточно для большинства сайтов.