Инструменты для захвата и конвертирования Интернета

Как автоматически извлечь структурированную информацию из неструктурированного текста?

Обычный письменный текст может содержать много информации, которую нелегко извлечь. Например, предложение может быть отзыв о компании, но как вы знаете, хороший это или плохой отзыв?

Обычный веб-скребок не сможет извлечь эту информацию. Однако GrabzIt может использовать встроенные возможности обработки естественного языка. Как показано в приведенном ниже примере, текст страницы анализируется и возвращает одно из следующих значений: Очень отрицательное, Отрицательное, Нейтральное, Позитивное и Очень положительное.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

Хотя сторонники Веб-скребок GrabzIt может извлечь намного больше из текста, включая определение языка, названия мест, имена людей и названия организаций. Примеры которых приведены ниже.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

Вам не нужно самостоятельно писать какие-либо из этих инструкций по очистке, поскольку они автоматически появятся, когда вы выберете соответствующий HTML-элемент в нашем мастере скребка.