Обычный письменный текст может содержать много информации, которую нелегко извлечь. Например, предложение может быть отзыв о компании, но как вы знаете, хороший это или плохой отзыв?
Обычный веб-скребок не сможет извлечь эту информацию. Однако GrabzIt может использовать встроенные возможности обработки естественного языка. Как показано в приведенном ниже примере, текст страницы анализируется и возвращает одно из следующих значений: Очень отрицательное, Отрицательное, Нейтральное, Позитивное и Очень положительное.
Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');
Несмотря на то, что Веб-скребок GrabzIt может извлечь намного больше из текста, включая определение языка, названия мест, имена людей и названия организаций. Примеры которых приведены ниже.
//Language Detection Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language'); //Identify Geographic Locations Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations'); //Identify People's Names Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names'); //Identify Organizations Names Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');
Вам не нужно самостоятельно писать какие-либо из этих инструкций по очистке, поскольку они автоматически появятся, когда вы выберете соответствующий HTML-элемент в нашем мастере скребка.