Часто важная текстовая информация может храниться в изображениях. тем не мение Веб-скребок GrabzIt предоставляет возможность автоматического извлечения этой информации с помощью оптического распознавания символов. Хотя как это форма искусственная intрезультаты не всегда идеальны.
Для извлечения текста из изображений вы должны использовать Utility.Image.extractText
метод, как показано ниже.
var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));
В этих примерах оба получают URL-адреса всех изображений с веб-страницы, а затем передают URL-адреса в метод extractText, который пытается извлечь текстовые данные из каждого изображения и возвращает любые совпадения в виде массива strings.
Если текст на изображении написан на другом языке, необходимо указать правильный языковой код в двухбуквенном формате (ISO 639-1), как показано ниже.
var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');