Очистка данных из содержимого документов PDF не так гибка, как при работе с документами HTML, однако есть еще ряд способов, которые могут быть достигнуты с помощью Веб-скребок GrabzIt, Во-первых, чтобы очистить содержимое PDF, вы используете PDF
функции, а не Page
функции, но в остальном функции работают в целом одинаково.
Фильтр для документа PDF намного проще, чем для документа HTML. Прежде всего, вы должны указать, какой тип контента вы хотите извлечь: ссылки, изображения или текст.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
Для ссылок и изображений вы можете ограничить, какое изображение или ссылка возвращается, указав их положение.
PDF.getValue({"type":"image","position":"2"});
Получает второе изображение в документе. Для текста, изображений и ссылок вы можете дополнительно ограничить возвращаемые данные, указав номер страницы.
PDF.getValue({"type":"image","position":"2","page":"5"});
Это вернет второе изображение с пятой страницы. Текст поставляется с добавленной опцией номера строки, однако текст не поддерживает позицию.
PDF.getValue({"type":"text","page":"5","line":"10"});
Это получает десятую строку текста с пятой страницы. Кроме этих различий в параметрах фильтра, очистка данных из документов PDF работает очень похоже на извлечение данных из документов HTMLОднако, поскольку вы не можете быть настолько конкретными, как то, что вы извлекаете с помощью фильтра PDF, вам может потребоваться указать описания извлечь правильную информацию из текста.