Веб-скребок GrabzIt предоставляет несколько специальных утилит для облегчения извлечения адресов электронной почты с веб-сайта. Приведенный ниже пример получает весь контент HTML с веб-страницы, а затем пропускает его через Utility.Text.extractAddresses
способ найти все действительные адреса электронной почты перед сохранением адресов into набор данных, который затем отправляется пользователю.
В качестве альтернативы можно извлечь только первый соответствующий адрес электронной почты, используя Utility.Text.extractAddress
метод.
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
PDF документы также могут быть очищены для адресов электронной почты аналогично тому, как веб-страницы соскребены выше. Как видно из приведенного ниже примера, процесс точно такой же, за исключением того, что PDF.getText()
метод используется вместо Page.getHtml()
метод.
Data.save(Utility.Text.extractAddresses(PDF.getText()));
Грабз обладает способностью извлекать текст из изображений это означает, что эту способность также можно использовать для извлечения адресов электронной почты из изображений. В приведенном ниже примере извлекаются любые адреса электронной почты из всех изображений на веб-странице.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
В то время как инструкции по очистке ниже извлекают любые адреса электронной почты из изображений, найденных в документах PDF.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));