Инструменты для захвата и конвертирования Интернета

Извлечение данных из документов PDF

Очистка данных из содержимого документов PDF не так гибка, как при работе с документами HTML, однако есть еще ряд способов, которые могут быть достигнуты с помощью Веб-скребок GrabzIt, Во-первых, чтобы очистить содержимое PDF, вы используете PDF функции, а не Page функции, но в остальном функции работают в целом одинаково.

Фильтр для документа PDF намного проще, чем для документа HTML. Прежде всего, вы должны указать, какой тип контента вы хотите извлечь: ссылки, изображения или текст.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Для ссылок и изображений вы можете ограничить, какое изображение или ссылка возвращается, указав их положение.

PDF.getValue({"type":"image","position":"2"});

Получает второе изображение в документе. Для текста, изображений и ссылок вы можете дополнительно ограничить возвращаемые данные, указав номер страницы.

PDF.getValue({"type":"image","position":"2","page":"5"});

Это вернет второе изображение с пятой страницы. Текст поставляется с добавленной опцией номера строки, однако текст не поддерживает позицию.

PDF.getValue({"type":"text","page":"5","line":"10"});

Это получает десятую строку текста с пятой страницы. Кроме этих различий в параметрах фильтра, очистка данных из документов PDF работает очень похоже на извлечение данных из документов HTMLОднако, поскольку вы не можете быть настолько конкретными, как то, что вы извлекаете с помощью фильтра PDF, вам может потребоваться указать паттерн извлечь правильную информацию из текста.