Инструменты для захвата и конвертирования Интернета

Web Scraper Documentation

Это обзор наших специальных методов очистки, которые мы предоставляем через наш веб-скребок.

Criteria.apply (массив)

Удаляет все элементы в том же месте, что и элементы, удаленные предыдущими операциями в этом критерии из предоставленного массива.

  • массив - обязательный, массив для применения изменений.

Criteria.ascending (значения)

Возвращает значения в порядке возрастания.

  • значения - обязательны, передайте массив, который вы хотите отсортировать в порядке возрастания.

Criteria.contains (иглы, стоимость)

Возвращает только элементы в массиве игл, который содержит указанное значение.

  • иглы - обязательно, массив для фильтрации.
  • значение - обязательно, элементы значения должны содержать.

Criteria.create (массив)

Создает новый критерий, готовый выполнять операции с новым массивом.

  • массив - обязательный, массив столбцов, к которым применяются изменения.

  • Criteria.descending (значения)

    Возвращает значения в порядке убывания.

    • значения - обязательны, передайте массив, который вы хотите отсортировать в порядке убывания.

    Criteria.equals (иглы, стоимость)

    Возвращает только элементы в массиве игл, равном указанному значению.

    • иглы - обязательно, массив для фильтрации.
    • значение - обязательно, значение элемента должно быть равно.

    Criteria.extract (массив, шаблон)

    Возвращает все элементы в массиве, которые при любых совпадениях обрезаются в соответствии с указанным шаблоном

    • массив - обязателен, массив для обрезки соответствует.
    • pattern - обязательный, шаблон определяет, как обрезать нужную часть возвращаемого текста. Значение для обрезки указывается {{VALUE}} в шаблоне.
      Например, чтобы урезать возраст из «Мой возраст 33». шаблон «Мой возраст {{VALUE}}». будет использоваться.

    Criteria.greaterThan (иглы, значение)

    Возвращает единственные элементы в массиве игл, которые превышают указанное значение.

    • иглы - обязательно, массив для фильтрации.
    • значение - обязательно, значение элемента должно быть больше, чем.

    Criteria.keep (иголки, стог сена)

    Возвращает массив игл после сохранения любых совпадений, найденных в массиве стога сена.

    • иглы - обязательно, массив для фильтрации.
    • стог сена - обязательный массив для хранения игл.

    Criteria.lessThan (иглы, значение)

    Возвращает единственные элементы в массиве игл, которые меньше указанного значения.

    • иглы - обязательно, массив для фильтрации.
    • value - обязательно, значение элементов должно быть меньше чем.

    Criteria.limit (значения, лимит)

    Возвращает первые n значений, где n является предельной переменной.

    • значения - обязательны, передайте массив, который вы хотите ограничить.
    • limit - обязательно, количество значений, которые вы хотите вернуть из массива.

    Criteria.notEquals (иглы, значение)

    Возвращает единственные элементы в массиве игл, которые НЕ равны указанному значению.

    • иглы - обязательно, массив для фильтрации.
    • value - обязательно, значение элементов не должно быть равно.

    Критерии.удаление (иголки, стог сена)

    Возвращает массив игл после удаления любых совпадений, найденных в массиве стога сена.

    • иглы - обязательно, массив для фильтрации.
    • стог сена - обязательный массив для удаления игл.

    Criteria.repeat (массив)

    Повторите элементы в массиве, пока он не будет соответствовать длине самого длинного столбца.

    • массив - требуется, массив для повторения.

    Criteria.unique (иглы)

    Возвращает только уникальные значения из массива игл.

    • иглы - обязательно, передайте массив, из которого вы хотите удалить все повторяющиеся значения.

    Data.countFilesDownloaded ()

    Подсчитайте общее количество загруженных файлов.


    Data.log (сообщение)

    Пишет сообщение в журнал очистки.

    • сообщение - обязательно, сообщение для записи в журнал.

    Data.pad (padValue, dataSet)

    Добавляет все столбцы, присутствующие в наборах данных, добавляя пустые ячейки к концу столбцов, пока все столбцы в конкретном наборе данных не будут иметь одинаковое количество ячеек.

    • padValue - необязательный, значение для заполнения ячеек. Если ничего не указано, используется пустое значение.
    • dataSet - необязательный, набор данных для заполнения.

    Data.readColumn (dataSet, column)

    Читает столбец указанного столбца из указанного набора данных.

    • dataSet - необязательный, набор данных для чтения значения из.
    • колонка - необязательныйстолбец в наборе данных для чтения значения из.

    Данные.save(стоимостьs, dataSet, column)

    Saves любое значение или значения для указанного набора данных и столбца.

    • значение - обязательно, передайте любое значение или массив значений, которые вы хотите save.
    • dataSet - необязательный, набор данных для save Значение into.
    • колонка - необязательныйстолбец в наборе данных save Значение into.

    Данные.saveDOCXScreenshot (htmlOrUrls, параметры, набор данных, столбец)

    Сделайте снимок экрана HTML, URL или URL-адреса в формате DOCX и при необходимости поместите ссылку на файл в указанном наборе данных и столбце.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите сделать на снимке экрана DOCX.
    • параметры - необязательный, варианты скриншотов.
    • dataSet - необязательный, набор данных для save ссылка на скриншот DOCX into.
    • колонка - необязательныйстолбец в наборе данных save ссылка на скриншот DOCX into.

    Данные.saveImageScreenshot (htmlOrUrls, параметры, набор данных, столбец)

    Сделайте снимок экрана с HTML, URL или URL и, при необходимости, поместите ссылку на файл в указанном наборе данных и столбце.

    • url - требуется, передайте любой URL или массив URL, которые вы хотите сделать снимок экрана.
    • параметры - необязательный, варианты скриншотов.
    • dataSet - необязательный, набор данных для save ссылка на скриншот изображения into.
    • колонка - необязательныйстолбец в наборе данных save ссылка на скриншот изображения into.

    Данные.savePDFScreenshot (htmlOrUrls, параметры, набор данных, столбец)

    Сделайте PDF-скриншот HTML, URL или URL и, при необходимости, поместите ссылку на файл в указанном наборе данных и столбце.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите сделать в виде скриншота в формате PDF.
    • параметры - необязательный, варианты скриншотов.
    • dataSet - необязательный, набор данных для save ссылка на скриншот PDF into.
    • колонка - необязательныйстолбец в наборе данных save ссылка на скриншот PDF into.

    Данные.saveTableScreenshot (htmlOrUrls, параметры, набор данных, столбец)

    Сделайте скриншот таблицы HTML, URL или URL и, при необходимости, поместите ссылку на файл в указанном наборе данных и столбце.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите сделать на скриншоте таблицы.
    • параметры - необязательный, варианты скриншотов.
    • dataSet - необязательный, набор данных для save ссылка на скриншот таблицы into.
    • колонка - необязательныйстолбец в наборе данных save ссылка на скриншот таблицы into.

    Данные.saveФайл (URLs, имя файла, набор данных, столбец)

    SaveЛюбой URL или URL-адреса в виде файла и, при необходимости, помещает ссылку на файл в указанном наборе данных и столбце.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите включить intо файл (ы).
    • имя файла - необязательный, передайте любое имя файла, которое вы хотите использовать вместо сгенерированного.
    • dataSet - необязательно, набор данных для save ссылка на файл into.
    • колонка - необязательныйстолбец в наборе данных save ссылка на файл into.

    Данные.saveToFile (данные, имя файла, набор данных, столбец)

    SaveЛюбые данные или элементы данных в виде файла и, при необходимости, помещает ссылку на файл в указанном наборе данных и столбце.

    • данные - требуется, передать любые данные или массив данных, которые вы хотите save в файле (ах).
    • имя файла - необязательный, передайте любое имя файла, которое вы хотите использовать вместо сгенерированного.
    • dataSet - необязательно, набор данных для save ссылка на файл into.
    • колонка - необязательныйстолбец в наборе данных save ссылка на файл into.

    Данные.saveУникальный (значениеs, dataSet, column)

    Saves любое уникальное значение или значения для указанного набора данных и столбца. Дубликаты значений в одном наборе данных и столбце игнорируются.

    • значение - обязательно, передайте любое значение или массив значений, которые вы хотите save.
    • dataSet - необязательный, набор данных для save Значение into.
    • колонка - необязательныйстолбец в наборе данных save Значение into.

    Данные.saveUniqueFile (URLs, имя файла, набор данных, столбец)

    SaveЛюбой URL или URL-адреса в виде файла и, при необходимости, помещает ссылку на файл в указанном наборе данных и столбце. Этот метод будет только save уникальные значения для указанного набора данных и столбца, или если нет уникальных URL-адресов набора данных и столбца для всей очистки.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите включить intо файл (ы).
    • имя файла - необязательный, передайте любое имя файла, которое вы хотите использовать вместо сгенерированного.
    • dataSet - необязательный, набор данных для save ссылка на файл into.
    • колонка - необязательныйстолбец в наборе данных save ссылка на файл into.

    Данные.saveVideoAnimation (videoUrls, параметры, набор данных, столбец)

    Конвертировать онлайн видео или видео into анимированные GIF-файлы и, при необходимости, помещает ссылку на файл в указанном наборе данных и столбце.

    • videoUrl - требуется, передайте любой URL видео или массив URL, которые вы хотите конвертировать intо анимированные GIF (ы).
    • параметры - необязательный, варианты анимации.
    • dataSet - необязательный, набор данных для save анимационная ссылка into.
    • колонка - необязательныйстолбец в наборе данных save анимационная ссылка into.

    Global.get (имя)

    Получает saveзначение переменной d.

    • name - обязательно, имя переменной для возврата.

    Global.set (имя, значениеsсохраняться)

    SaveЛюбое значение или значения между очищенными страницами.

    • name - обязательно, имя переменной для save.
    • значение - обязательно, значение переменной в save.
    • persist - необязательно, если true, переменная будет храниться между записками.

    Navigation.addTemplate (URLs, шаблон)

    Определите URL или URL как принадлежащие указанному шаблону. Это позволяет ограничить выполнение инструкций по очистке только определенными URL-адресами.

    • url - требуется, передайте любой URL или массив URL, для которых вы хотите определить шаблон.
    • Шаблон - обязательно.

    Navigation.clearCookies ()

    Удалите все куки для текущей очистки.


    Navigation.navigate (фильтр, шаблон)

    Нажмите на один или несколько элементов HTML.

    • фильтр - требуется, фильтр, используемый для определения того, какой элемент (элементы) HTML нужно щелкнуть.
    • шаблон - шаблон, назначаемый при переходе к выбранному элементу HTML.

    Navigation.goTo (URL)

    Перейдите сразу по указанному URL.

    • url - обязательно, URL для перехода.

    Navigation.hover (фильтр)

    Наведите указатель мыши на один или несколько элементов HTML.

    • filter - требуется, фильтр, используемый для определения того, над какими HTML-элементами нужно навести курсор.

    Navigation.isTemplate (шаблон)

    Возвращает true, если текущая страница принадлежит указанному шаблону.

    • шаблон - требуется, шаблон для проверки, принадлежит ли страница.

    Navigation.paginate (фильтр, секунды)

    Пагинация через указанные элементы.

    • filter - требуется, фильтр, используемый для определения того, через какие HTML-элементы нужно разбить страницу.
    • seconds - обязательно, количество секунд между переходом к нумерации страниц.

    Navigation.remove (фильтр)

    Удалите один или несколько элементов HTML.

    • фильтр - требуется, фильтр, используемый для определения того, какой элемент (элементы) HTML необходимо удалить.

    Navigation.scroll (фильтр)

    Прокрутите выделенный элемент или всю веб-страницу.

    • фильтр - необязательный, фильтр, используемый для определения того, какой элемент прокручивать, если он не указан, будет прокручиваться вся веб-страница.

    Navigation.select (значениеs, фильтр)

    Выберите одно или несколько допустимых значений в элементе выбора.

    • значение - обязательно, одно или несколько значений для выбора.
    • фильтр - требуется, фильтр, используемый для определения, какой элемент выбрать для выбора.

    Navigation.stopScraping (преждевременное прекращение)

    Прекратите соскоб немедленно.

    • abort - необязательно, если true прекратить обработку и не экспортировать и не передавать результаты.

    Navigation.type (текстs, фильтр)

    Введите текст intэлемент.

    • текст - обязательный, один или несколько элементов текста для ввода.
    • фильтр - требуется, фильтр, используемый для определения, какой элемент для ввода into.

    Navigation.wait (в секундах)

    Подождите несколько секунд, прежде чем продолжить. Это наиболее полезно при использовании этого щелчка, выбора и ввода команд.

    • секунд - обязательно, количество секунд ожидания.

    Page.contains (поиск, атрибут, фильтр)

    Возвращает true, если Страница содержит текст для поиска.

    • найти - обязательно, текст найти.
    • attribute - необязательный атрибут для поиска.
    • фильтр - необязательный, фильтр, используемый для определения, в каком элементе искать.

    Page.exists (фильтр)

    Возвращает true, если Страница содержит элемент, соответствующий поисковому фильтру.

    • фильтр - требуется, фильтр, используемый для определения, какой элемент для поиска.

    Page.getAuthor ()

    Получает автора страницы, если он указан.


    Page.getDescription ()

    Получает описание страницы, если оно указано.


    Page.getFavIconUrl ()

    Получает URL-адрес FavIcon страницы.


    Page.getHtml ()

    Получает необработанную страницу HTML.


    Page.getKeywords ()

    Получает ключевые слова очищаемой страницы.


    Page.getLastModified ()

    Получает время последнего изменения веб-страницы либо из метаданных страницы, либо из заголовков ответов.


    Page.getPageNumber ()

    Получает номер страницы текущего URL, который очищается.


    Page.getPreviousUrl (индекс)

    Получает предыдущий URL-адрес, -1 указывает последний URL-адрес, в то время как меньшее число указывает любой более ранний URL-адрес.

    • index - необязательно, индекс предыдущей страницы для возврата. По умолчанию -1.

    Page.getTagAttribute (атрибут, фильтр)

    Возвращает совпадающее значение атрибута.

    • атрибут - обязательный, атрибут для поиска.
    • фильтр - необязательный, фильтр, используемый для определения того, какой элемент искать.

    Page.getTagAttributes (атрибут, фильтр, связанный с)

    Возвращает соответствующие значения CSS.

    • attribute - обязательный атрибут CSS для поиска.
    • фильтр - необязательный, фильтр, используемый для определения того, какой элемент искать.
    • связанный с - необязательный, столбцом, с которым это должно быть связано, чтобы относительные значения были сохранены вместе.

    Page.getTagCSSAttribute (атрибут, фильтр)

    Возвращает соответствующее значение CSS.

    • attribute - обязательный атрибут CSS для поиска.
    • фильтр - необязательный, фильтр, используемый для определения того, какой элемент искать.

    Page.getTagCSSAttributes (атрибут, фильтр, связанный с)

    Возвращает совпадающие значения атрибута.

    • атрибут - обязательный, атрибут для поиска.
    • фильтр - необязательный, фильтр, используемый для определения того, какой элемент искать.
    • связанный с - необязательный, столбцом, с которым это должно быть связано, чтобы относительные значения были сохранены вместе.

    Page.getTagValue (фильтр)

    Возвращает совпадающее значение элемента.

    • фильтр - необязательный, фильтр, используемый для определения того, какой элемент (ы) искать.

    Page.getTagValues ​​(фильтр, связанный с)

    Возвращает совпадающие значения элемента.

    • фильтр - необязательный, фильтр, используемый для определения того, какой элемент (ы) искать.
    • связанный с - необязательный, столбцом, с которым это должно быть связано, чтобы относительные значения были сохранены вместе.

    Page.getText ()

    Получает видимый текст со страницы.


    Page.getTitle ()

    Получает заголовок страницы.


    Page.getUrl ()

    Получает URL-адрес страницы.


    Page.getValueXPath (XPath)

    Возвращает значение, соответствующее указанному XPATH.

    • xpath - требуется, чтобы XPATH соответствовал значению или атрибуту элемента.

    Page.getValuesXPath (XPath)

    Возвращает значения, которые соответствуют указанному XPATH.

    • xpath - требуется, чтобы XPATH соответствовал значениям или атрибутам элемента.

    Page.valid ()

    Возвращает true, если URL-адрес, который в данный момент просматривается, является допустимой веб-страницей


    Utility.Array.clean (значениеs)

    Возвращает все ненулевые и пустые значения из массива значений.

    • значения - обязательно, передайте любой массив значений для очистки.

    Utility.Array.contains (значениеs)

    Возвращает true, если стрелка находится в массиве haystack.

    • игла - требуется, передать любое значение или массив значений для поиска.
    • стог сена - обязательный массив для поиска иголки или иголок.

    Utility.Array.merge (array1, array2)

    Объединяет два массива into заменить пустое или нулевое значение значением из второго массива. Оба массива должны быть одинакового размера.

    • array1 - обязательный, передать массив значений для слияния.
    • array2 - обязательный, передать массив значений для слияния.

    Utility.Array.unique (значениеs)

    Возвращает уникальные значения из массива значений.

    • значения - обязательны, передайте любой массив значений, чтобы сделать его уникальным.

    Utility.Text.extractAddress (текст)

    Извлекает первый адрес электронной почты в указанном текстовом параметре.

    • текст - обязательный, текст для извлечения адреса электронной почты.

    Utility.Text.extractAddresses (текст)

    Извлекает все адреса электронной почты из указанного текстового параметра.

    • текст - обязательный, текст для извлечения всех адресов электронной почты.

    Utility.Text.extractLocation (текст, язык)

    Автоматически извлекает первое местоположение из указанного текстового параметра.

    • текст - обязательный, текст для извлечения местоположения.
    • language - необязательный, язык текста для извлечения в двухбуквенном формате ISO 639-1. По умолчанию «en». Используйте 'auto', чтобы попытаться автоматически определить язык текста.

    Utility.Text.extractLocations (текст, язык)

    Автоматически извлекает местоположения из указанного текстового параметра.

    • текст - обязательный, текст для извлечения локаций.
    • language - необязательный, язык текста для извлечения в двухбуквенном формате ISO 639-1. По умолчанию «en». Используйте 'auto', чтобы попытаться автоматически определить язык текста.

    Utility.Text.extractLanguageName (текст)

    Автоматически извлекает язык, указанный в текстовом параметре.

    • текст - обязательный, текст для извлечения языка.

    Utility.Text.extractLanguageCode (текст)

    Автоматически извлекает язык, указанный в текстовом параметре.

    • текст - обязательный, текст для извлечения языка.

    Utility.Text.extractName (текст, язык)

    Автоматически извлекает имя из указанного текстового параметра.

    • текст - обязательный, текст для извлечения имени.
    • language - необязательный, язык текста для извлечения в двухбуквенном формате ISO 639-1. По умолчанию «en». Используйте 'auto', чтобы попытаться автоматически определить язык текста.

    Utility.Text.extractNames (текст, язык)

    Автоматически извлекает имена из указанного текстового параметра.

    • текст - обязательный, текст для извлечения имени.
    • language - необязательный, язык текста для извлечения в двухбуквенном формате ISO 639-1. По умолчанию «en». Используйте 'auto', чтобы попытаться автоматически определить язык текста.

    Utility.Text.extractOrganization (текст, язык)

    Автоматически извлекает первую организацию из указанного текстового параметра.

    • текст - обязательный, текст для извлечения организации.
    • language - необязательный, язык текста для извлечения в двухбуквенном формате ISO 639-1. По умолчанию «en». Используйте 'auto', чтобы попытаться автоматически определить язык текста.

    Utility.Text.extractOrganizations (текст, язык)

    Автоматически извлекает организации из указанного текстового параметра.

    • текст - обязательный, текст для извлечения организаций.
    • language - необязательный, язык текста для извлечения в двухбуквенном формате ISO 639-1. По умолчанию «en». Используйте 'auto', чтобы попытаться автоматически определить язык текста.

    Utility.Text.extractSentiment (текст)

    Автоматически извлекает мнение из указанного текстового параметра.

    • текст - обязательный, текст для извлечения настроения.

    Utility.Image.extractText (URLs, язык)

    Попытки использовать оптическое распознавание символов для извлечения текста из любых указанных изображений.

    • url - обязательно, передайте любой URL или массив URL изображений, из которых вы хотите извлечь текст.
    • language - необязательный, язык текста для извлечения в двухбуквенном формате ISO 639-1. По умолчанию «en».

    Utility.URL.addQueryStringПараметр (URLs, ключ, значение)

    Добавить запросstring Параметр для любого URL или URL.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите добавить в запрос string параметр до.
    • ключ - требуется, ключ параметра для добавления.
    • value - обязательно, значение параметра для добавления.

    Utility.URL.getQueryStringПараметр (URLsключ)

    Получает значение запросаstring параметр из любого URL или URL.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите прочитать запросstring параметр от.
    • ключ - обязательный, ключ параметра для чтения.

    Utility.URL.removeQueryStringПараметр (URLsключ)

    Удалить запросstring параметр из любого URL или URL.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите удалить запросstring параметр от.
    • ключ - требуется, ключ параметра для удаления.

    Utility.URL.exists (URLs)

    Проверьте, действительно ли URL-адрес или URL-адреса существуют, вызывая каждый URL-адрес.

    • url - обязательно, передайте любой URL или массив URL, которые вы хотите проверить, существуют.