Инструменты для захвата и конвертирования Интернета

Извлечь текст из изображений

Часто важная текстовая информация может храниться в изображениях. тем не мение Веб-скребок GrabzIt предоставляет возможность автоматического извлечения этой информации с помощью оптического распознавания символов. Хотя как это форма искусственная intрезультаты не всегда идеальны.

Для извлечения текста из изображений вы должны использовать Utility.Image.extractText метод, как показано ниже.

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));

В этих примерах оба получают URL-адреса всех изображений с веб-страницы, а затем передают URL-адреса в метод extractText, который пытается извлечь текстовые данные из каждого изображения и возвращает любые совпадения в виде массива strings.

Если текст на изображении написан на другом языке, необходимо указать правильный языковой код в двухбуквенном формате (ISO 639-1), как показано ниже.

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');