Инструменты для захвата и конвертирования Интернета

Соскрести адреса электронной почты с веб-сайта

Следующие два примера являются частью одного и того же шаблон.

Веб-скребок GrabzIt предоставляет несколько специальных утилит для облегчения извлечения адресов электронной почты с веб-сайта. Приведенный ниже пример получает весь контент HTML с веб-страницы, а затем пропускает его через Utility.Text.extractAddresses способ найти все действительные адреса электронной почты перед сохранением адресов into набор данных, который затем отправляется пользователю.

В качестве альтернативы можно извлечь только первый соответствующий адрес электронной почты, используя Utility.Text.extractAddress метод.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

Очистить адреса электронной почты от документов PDF

PDF документы также могут быть очищены для адресов электронной почты аналогично тому, как веб-страницы соскребены выше. Как видно из приведенного ниже примера, процесс точно такой же, за исключением того, что PDF.getText() метод используется вместо Page.getHtml() метод.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Соскрести адреса электронной почты из изображений

Грабз обладает способностью извлекать текст из изображений это означает, что эту способность также можно использовать для извлечения адресов электронной почты из изображений. В приведенном ниже примере извлекаются любые адреса электронной почты из всех изображений на веб-странице.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

В то время как инструкции по очистке ниже извлекают любые адреса электронной почты из изображений, найденных в документах PDF.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));