Для создания веб-скрапа необходимо указать пять типов информации, распределенной по следующим вкладкам.
Все следующие функции доступны для настройки веб-очистки на вкладке Параметры очистки.
Скрести имя Название скребка.
Следуйте за ссылками предоставляет следующие параметры того, как скребок должен следовать по ссылкам:
Игнорировать файл Robots.txt если установлен, скребок может посещать веб-страницы, которые обычно исключаются из сканирования владельцем веб-сайта.
Игнорировать загрузки файлов один раз установить любые ссылки, которые вызывают загрузку файла при посещении не загружаются.
Игнорировать дубликаты если установлено, он будет игнорировать страницы, которые равны или превышают установленное вами сходство, например, вы можете игнорировать страницы, которые имеют 95% одинаковые.
Предел скрести позволяет указать, сколько страниц должен очистить веб-скребок перед остановкой.
Использовать мой часовой пояс если установлено, это означает, что Web Scraper должен попытаться преобразовать любые даты, которые он очищает into ваш местный часовой пояс. Ваш часовой пояс может быть установлен на странице учетной записи.
Местонахождение географическое местоположение, из которого Web Scraper будет выполнять очистку. Это может быть полезно, если целевой сайт имеет ограничения в зависимости от местоположения.
Формат даты по умолчанию при преобразовании дат, когда формат даты не может быть определен, вместо этого по умолчанию выбран этот выбранный формат.
Задержка загрузки страницы это время в миллисекундах, которое Web Scraper должен подождать перед анализом страницы. Это очень полезно, если страница содержит много AJAX или загружается медленно.
На вкладке Целевые сайты вы указываете сайты, с которых хотите извлечь данные. Чтобы указать инструменту Scrape для извлечения данных с веб-сайта, сначала необходимо указать основной URL-адрес, которым вы являетесь. intнапример http://www.example.com/shop/
Это когда скребок начнет свою работу, это может быть обычная веб-страница, PDF-документ, XML-документ, JSON-документ, RSS-канал или карта сайта. Если это не веб-страница или PDF-документ, скребок найдет все ссылки в файле и посетит каждую из них.
Чтобы переходить только по ссылкам, найденным в целевом URL, а не на любые последующие страницы, вы можете установить Следуйте за ссылками скрести вариант в на первой странице, Это будет использовать целевой URL только для заполнения остальной части очистки.
По умолчанию веб-скребок следует за каждой ссылкой, которую он обнаруживает на каждой веб-странице, которую он посещает. Если вы хотите ограничить ссылки Веб скребок Далее, один простой способ сделать это - указать шаблон URL. Это работает путем указания URL-адреса со звездочкой в качестве подстановочного знака, обозначающего, что в этой части шаблона могут присутствовать любые символы. Например http://www.example.com/*/articles/*
будет очищать любые URL-адреса, у которых есть статьи в качестве второго каталога из корня сайта.
Более строгий способ определения шаблона URL - определение альтернатив. Например, этот пример будет соответствовать только магазину или новостям: http://www.example.com//*
Следовательно, это будет соответствовать этому http://www.example.com/store/products/1
но не http://www.example.com/about/
Исходные URL-адреса позволяют пользователю указывать список URL-адресов, которые должен сканировать Web Scraper. Если вы хотите, чтобы URL-адреса семян были удалены, установите Следуйте за ссылками скрести варианты в нет страниц на вкладке Параметры очистки.
Чтобы установить URL-адреса семян на вкладке «Целевые сайты», нажмите кнопку «Добавить цель», затем установите флажок «Задать URL-адреса семян» и укажите каждый URL-адрес для переноса в отдельной строке.
В качестве альтернативы вы можете автоматически генерировать начальные URL-адреса с помощью URL-адреса шаблона, это один URL-адрес, который содержит переменную URL-адреса. Переменная URL-адреса задает диапазон чисел, для которого необходимо выполнить итерацию.
Начальный номер - это номер, с которого должна начинаться отсчет переменной URL, конечный номер - это номер, на котором переменная URL прекращает отсчет, номер итерации - это число, которое будет увеличиваться при каждой итерации переменной URL.
Например, для следующего шаблона URL http://www.example.com/search?pageNo=
Затем будут созданы следующие начальные URL:
URL также может указывать URL с параметрами для POST, например, форму входа. Для этого укажите URL-адрес формы в текстовом поле «Целевой URL-адрес» и добавьте необходимые параметры публикации. Значения пост-переменных также могут включать специальные переменные GrabzIt, такие как:
- день как двузначное значение
- месяц как двузначное значение
- год в виде четырехзначного значения
- час как двузначное значение
- минуты в виде двузначного значения
- секунда в виде двузначного значенияИнструкции по очистке сообщают веб-парсеру, какие действия следует выполнять при очистке целевого веб-сайта. На вкладке «Инструкции по очистке» по умолчанию отображается мастер очистки, который упрощает добавление необходимых инструкций по очистке. Хороший пример использования этого мастера показан в список продуктов и подробное руководство по очистке.
Когда вы будете готовы начать соскабливание, нажмите кнопку Добавить новую инструкцию по очистке ссылку.
Это откроет мастер и автоматически загрузит целевой URL, что позволит вам сразу выбрать то, что вы хотите удалить. Если веб-страница или документ PDF были загружены, вы можете нажать на любую ссылку, и она будет работать как обычно, например, переход на другую веб-страницу. Пока вы не выберете одно из действий, в нижней части экрана, в этой точкеint любые щелчки по контенту будут выбирать элемент HTML, который вы хотите извлечь или манипулировать.
Первое, что нужно понять о командах очистки, это то, что они выполняются на каждой веб-странице по умолчанию. Чтобы остановить это, используйте шаблоны. Шаблон может быть назначен при выполнении действия, такого как нажатие на ссылку, чтобы каждый раз, когда скребок посещал эту ссылку или нажимал на эту кнопку, он распознавал, что он принадлежит назначенному шаблону. Это позволяет определять разные типы страниц. Например, у вас может быть страница категории продукта, которая содержит некоторую обзорную информацию, а затем страницу с подробной информацией, которая содержит информацию о продукте. На обеих страницах, вероятно, потребуется разный набор инструкций по очистке.
Для начала выберите Нажмите действие, затем, как только вы выбрали элементы, которые вы хотите выполнить действие, и нажали Следующая введите название шаблона в поле Создать шаблон Теперь в текстовом поле всякий раз, когда скребок выполняет эти действия, возвращаемым шаблоном будет указанное вами имя.
Затем, чтобы назначить конкретный шаблон инструкции по очистке, вам нужно выбрать нужный шаблон из Выполнить в раскрывающийся список, который появляется в окне параметров, которое появляется непосредственно перед добавлением инструкции по очистке. Три основных варианта при выборе шаблона:
После того, как вы выбрали один из этих параметров, инструкция очистки будет выполняться только на указанном шаблоне.
Вы заметите, что когда вы выбираете Извлечение данных действие. В нижнем левом углу экрана предлагается либо выбрать элемент HTML в окне выше, либо выбрать глобальное свойство страницы.
Чтобы использовать глобальное свойство страницы, щелкните значок глобальное свойство страницы ссылка. Затем подтвердите, что хотите продолжить. Теперь у вас будет список свойств, которые можно извлечь прямо со страницы. Например: Заголовок страницы.
Чтобы выбрать один, просто выберите его из списка вариантов и нажмите Следующая добавить данные в Набор данных.
Если вы хотите извлечь данные в определенные элементы HTML, а не принадлежать всей странице, вам нужно щелкнуть соответствующие элементы HTML, вы можете выбрать один или несколько элементов. Однако, если вы выбираете несколько элементов, попробуйте выбрать несколько одинаковых элементов, например несколько строк в столбце, потому что, если скребок не может создать правило, которое может однозначно идентифицировать выбранный набор данных, инструкция очистки не будет быть в состоянии быть созданным. Кроме того, если наш мастер веб-скребка идентифицирует несколько элементов, которые вы нажимаете, как повторяющиеся данные, все повторяющиеся данные в этой же группе будут выбраны автоматически. После того, как вы выбрали все свои один или несколько элементов, выберите атрибут для извлечения в левом нижнем углу экрана и затем нажмите Следующая.
Экран набора данных позволяет вам изменить способ обработки данных, например, вы можете переименовать набор данных и столбцы в нем, просто нажмите на имя, чтобы переименовать его. Когда вы добавляете столбец в набор данных, вам также необходимо выбрать шаблон, в котором он будет выполняться. Вы можете изменить это, щелкнув раскрывающийся список под именем столбца.
Часто при извлечении данных некоторые повторяющиеся элементы часто повторяются непоследовательно, чтобы гарантировать, что правильные строки по-прежнему связаны друг с другом. Столбцы ссылок критерии, чтобы связать несовместимые столбцы с наиболее согласованным столбцом в наборе данных.
Чтобы добавить больше данных в набор данных, нажмите на или нажмите кнопку
удалить данные из набора данных, или
удалить весь набор данных. Набор данных также позволяет применять к данным различные критерии, для этого выберите нужное действие сверху и затем щелкните соответствующий столбец, чтобы применить критерии. Если вы ошиблись при добавлении критерия, просто нажмите
кнопку.
Вот список различных типов критериев и как их использовать:
Когда вы выбрали одну из вышеперечисленных операций, если она может повлиять на несколько столбцов, она спросит вас, хотите ли вы разрешить, чтобы она влияла только на подмножество столбцов или на все из них. В большинстве случаев вы хотите, чтобы это влияло на все столбцы, однако в некоторых случаях полезно ограничить количество используемых столбцов. Например, если вы выбираете серию метки и значения, которые меняют положение на веб-страницах, вы можете выбрать все метки и значения. Затем в наборе данных используйте операцию equals, чтобы ограничить ее до нужной метки и указать, что затрагиваются только метки и столбцы значений. Это гарантирует, что другие столбцы не будут затронуты удаляемыми строками, для полноты было бы полезно скрыть столбец метки.
Как только вы изменили все, что хотите, нажмите Следующая и ваши инструкции по очистке будут добавлены к ним. Затем у вас есть возможность добавить дальнейшие инструкции по очистке, если хотите.
Веб-страницей можно манипулировать до ее очистки, щелкая, печатая и выбирая значения в раскрывающихся списках. Важно помнить, что даже если это может привести к загрузке новой веб-страницы, инструкции очистки не будут перезапущены, пока не будут выполнены все применимые инструкции очистки.
Для управления веб-страницей выберите Нажмите Элемент, Элемент наведения, манускрипт, Введите текст or Выберите значение выпадающего списка действия. Если вы выполняете действие щелчка, вы можете нажать на любое количество элементов на веб-странице. В противном случае вы должны выбрать соответствующий элемент HTML, например, текст должен быть напечатан в текстовом поле. Затем нажмите Следующая, Откроется окно параметров, позволяющее завершить действие. При наборе текста и выборе из выпадающего списка должны быть выбраны данные для ввода или выбора соответственно. Кроме этого варианты одинаковы для всех трех действий.
Если вы хотите, вы можете выбрать шаблон, в котором должно быть выполнено это действие, и для действия щелчка, какой шаблон применяется, после того, как действие щелчка завершено. Однако назначение нового шаблона для действия по щелчку, которое выполняет несколько щелчков на одной странице, не является хорошей идеей, например, открытие встроенных всплывающих окон или отображение объектов на экране. Это связано с тем, что если действие щелчка выполняется только для определенных шаблонов, новый шаблон, назначенный первым щелчком, не будет сброшен, и, следовательно, в зависимости от того, как была написана очистка, это может остановить будущие щелчки на той же странице, которая выполняется. Вы также можете определить, хотите ли вы, чтобы это действие выполнялось только один раз, что полезно, если вы делаете что-то вроде входа в систему intвеб-сайт.
Действия «Текст текста» или «Выбрать значение раскрывающегося списка» позволяют вводить несколько элементов текста или выбирать несколько полей выбора соответственно. Они могут быть отредактированы, нажав на инструкции по очистке Изменить или просмотреть переменные Кнопка, как показано на скриншоте слева.
Это может быть важно, например, если вы хотите ввести список имен в поле поиска. Чтобы форма была отправлена только при наличии значения в поле поиска, шаблон можно задавать каждый раз, когда текст вводится успешно. into текстовое поле и действие нажатия на кнопку не выполняется, если этот шаблон не установлен. После того, как действие щелчка было выполнено, шаблон должен был бы быть изменен на что-то другое для сброса процедуры.
После выполнения действий, которые манипулируют веб-сайтами, полезно некоторое время подождать, если действия инициируют функциональность AJAX, чтобы разрешить загрузку содержимого AJAX, прежде чем продолжить очистку. Вы можете сделать это, добавив задержку в Подождать после исполнения текстовое окно.
Возможно, вы захотите перейти сразу к другому URL-адресу, как только будет выполнено какое-то условие. Для этого используйте Перейти к URL действие, которое будет появляться только в том случае, если хотя бы один шаблон был определен в цикле, а созданный должен быть назначен шаблону, чтобы избежать бесконечных циклов.
Наконец, вы можете использовать все API захвата GrabzIt в своих веб-фрагментах, просто выберите действие «Захватить веб-страницу» и выберите желаемый захват. Вы можете ограничить это для захвата определенных веб-страниц в блоке, указав шаблон для выполнения после выбора Следующая кнопку.
После добавления каждой команды очистки ее можно увидеть на панели команд очистки, крестик рядом с каждой командой очистки позволяет удалить инструкцию очистки. Если удалена инструкция очистки, которая требуется для других инструкций очистки, эти инструкции также будут удалены. Вы можете изменить порядок инструкций очистки, перетаскивая любые инструкции очистки со значком захвата.
Если вам нужно настроить инструкции очистки более конкретным образом, вам нужно будет изменить инструкции очистки вручную.
Инструкции скраба основаны на JavaScript, а редактор кода поставляется с проверкой синтаксиса, автозаполнением и всплывающими подсказками, чтобы сделать его максимально простым.
Основные функции редактора кода доступны через пункты меню, как показано на скриншоте, назначение каждого из которых объяснено отдельно ниже. В то время как любые синтаксические ошибки в ваших инструкциях скраба указаны в левом желобе редактора кода.
Мастер позволяет выбрать части страницы, которые вы хотите извлечь, и выполнить другие общие задачи, такие как создание веб-снимков.
отображает код инструкции по очистке для пользователя.
удаляет все инструкции по очистке.
введет ключевое слово страницы into очистите инструкции и откройте автозаполнение, которое содержит все возможные Функции страницы, Функции страницы позволяют извлекать данные с веб-страницы.
введет ключевое слово данных into инструкции по очистке. Функции данных разрешить вам save Информация.
вводит ключевое слово навигации into редактор кода. Функции навигации позволяют управлять тем, как Web Scraper перемещается по целевому веб-сайту.
вводит глобальное ключевое слово into инструкции по очистке. Это дает вам доступ к Функции который может хранить данные между разбором различных веб-страниц. При написании инструкций по очистке важно помнить, что состояние переменных JavaScript в инструкциях по очистке не сохраняется, когда скребок перемещается между веб-страницами, если только вы не используете глобальные функции для save переменные, как показано ниже.
Global.set("myvariable", "hello"); var mrvar = Global.get("myvariable");
Чтобы создать постоянную глобальную переменную, передайте значение true параметру persist в методе Global.set, как показано ниже.
Global.set("myvariable", "hello", true);
вводит ключевое слово Utility into инструкции по очистке. Это позволяет вам использовать общие функции которые облегчают написание заметок, например, добавление или удаление запросаstring параметры из URL.
вводит ключевое слово Criteria into инструкции по очистке. Эти Функции позволяет вам уточнить данные, извлеченные во время вашей очистки, такие как удаление дубликатов.
позволяет легко создать фильтр, это требуется некоторым функциям для выбора определенного элемента HTML на веб-странице. Просто выберите атрибуты, которые должен иметь ваш целевой элемент, и / или родитель (ы) элемента должны выбрать этот элемент. Перед тем, как щелкнуть эту опцию, убедитесь, что курсор находится в правильном месте в функции, чтобы пройти фильтр тоже.
позволяет установить параметры скриншота. Просто поместите курсор в правильную часть функции, как указано в подсказке, и нажмите параметры снимка экрана. Затем выберите все нужные параметры и введите команду.
Strings используются в инструкциях по очистке при выполнении очистки по сети для определения текста. string ограничен двойным ("
) или одинарные кавычки ('
). Если string начинается с двойной кавычки, она должна заканчиваться двойной кавычкой, если string начинается с одинарной кавычки и заканчивается одинарной кавычкой. Например:
"my-class"
и 'my-class'
Распространенная ошибка, которая может произойти, является незакрытой string ошибка, это когда string не имеет закрывающей кавычки, как показано выше, или в string, Следующее незаконно strings:
"my
class"
"my class
Чтобы исправить эту ошибку, убедитесь, что они не содержат разрывов строк и имеют соответствующие кавычки, например:
"my class"
и "my class"
Иногда вы хотите, чтобы в string, Самый простой способ сделать это - поместить одну цитату в string ограничены двойными кавычками и двойной кавычкой в string разделенные одинарными кавычками, например так:
"Bob's shop"
и '"The best store on the web"'
В качестве альтернативы вы можете использовать обратную косую черту, чтобы избежать кавычек, например:
'test\'s'
Когда Web Scraper сталкивается с PDF, XML, JSON и RSS, он преобразует его в приближение HTML, что позволяет нашему Web Scraper правильно его анализировать и выбирать, какой контент вы хотите извлечь. Например, если вы хотите проанализировать данные JSON, он преобразует данные into иерархическое представление HTML, как показано на стороне. Это позволяет строить инструкции по очистке как обычно.
Аналогичным образом, когда скребок загружает документ PDF, PDF преобразуется into HTML, позволяющий выбирать и очищать изображения, гиперссылки, текст и таблицы. Однако, поскольку PDF не имеет реальной структуры, таблицы идентифицируются с использованием эвристики и поэтому не всегда точны.
Эта вкладка позволяет вам выбрать, как вы хотите экспортировать свои результаты, включая электронные таблицы Excel, XML, JSON, CSV, команды SQL или документы HTML. Кроме того, эта вкладка позволяет задать имя результатов архива в сжатом виде. Если вы загружаете только файлы или создаете веб-захваты, вам не нужно выбирать вариант экспорта, поскольку вы просто получите ZIP-файл, содержащий результаты. Эта вкладка также позволяет указать, как вы хотите отправить результаты. Вы можете отправить результаты через Amazon S3, Dropbox, Уведомление по электронной почте, Ftp и WebDav.
Последний вариант - это URL обратного вызова, который позволяет обрабатывать результаты анализа в вашем приложении с помощью нашего скрести API.
Имя файла заархивированных результатов или каждого файла данных, если вы запрашиваете их отправку отдельно, можно установить, сняв отметку с параметра Использовать имя файла по умолчанию и указав желаемое имя файла. Кроме того, к вашему имени файла можно добавить отметку времени, поставив {GrabzIt_Timestamp_UTC+1}
в имени файла. +1 обозначает смещение в часах от UTC.
Вы также можете просмотреть результаты очистки, нажав кнопку Просмотр результатов кнопка рядом с твоя царапина, это покажет все результаты очистки в реальном времени, а также предыдущие, выполненные за последние 48 часов.
При создании веб-очистки вкладка «Расписание очистки» позволяет указать, когда вы хотите, чтобы очистка запускалась и если вы хотите, чтобы она повторялась, как часто она должна это делать.
После запуска веб-очистки значок статуса изменится на и обработанные страницы начнут увеличиваться со временем. Снимок в реальном времени о прогрессе очистки регулярно создается с файлом журнала, генерируемым вместе с обычным снимком экрана последней веб-страницы, с которой столкнулся скребок. Это позволяет увидеть, что происходит во время чистки. Чтобы найти эту информацию, нажмите на значок расширения рядом с вашим скребком и нажмите программа просмотра за царапины вы intЗаинтересованы. Это должно детализировать, если были какие-либо ошибки, такие как проблемы с вашими инструкциями очистки.
После успешного завершения очистки значок состояния переключится на , если нет результата, открыв программу просмотра журнала и последний скриншот может сказать вам, что пошло не так.
Одна из наиболее распространенных проблем, о которых сообщалось в журналах, это отсутствие достаточной задержки рендеринга для очистки страницы, часто небольшое увеличение Задержка загрузки страницы найдено в Варианты соскоба Вкладки достаточно для большинства сайтов.