Инструменты для захвата и конвертирования Интернета

Как очистить список товаров и страницы с подробностями

На веб-сайтах часто существует страница поиска, которая содержит список элементов, причем каждому элементу дается краткое описание со ссылкой на страницу сведений, которая включает в себя подробную информацию об элементе.

Поскольку эта структура используется очень часто, часто возникает необходимость извлечь некоторую информацию о каждом элементе со страницы поиска, а остальную часть - со страницы сведений. Эта статья даст руководство о том, как очистить такую ​​информацию.

Сначала введите URL-адрес страницы со списком продуктов, которую вы хотите очистить. Затем выберите информацию, которую вы хотите выбрать на странице списка продуктов. Убедитесь, что все примеры данных выбраны.

Затем на странице инструкции по очистке нажмите Добавить инструкцию по очистке.

Первое, что нужно знать, это то, что наш скребок работает точно так же, как браузер, поэтому, если есть уведомление о безопасности cookie или другое встроенное всплывающее окно, которое останавливает вас при нажатии на страницу, вы должны указать скребку закрыть всплывающее окно до того, как Остальная часть лома может быть сделано. Большинство из этих всплывающих окон нужно нажимать только один раз, и вы можете сказать GrabzIt сделать то же самое. Для этого используйте Нажмите Элемент действие и щелкните элемент HTML, необходимый для закрытия всплывающего окна. Затем выберите вариант «Только один раз», затем Save и далее.

Далее выберите Извлечение данных действие, затем выберите данные, которые вы хотите извлечь. Итак, если вы хотите выбрать название элемента, из списка результатов поиска. Убедитесь, что выбран каждый заголовок в этом списке.

Наш мастер пытается автоматически идентифицировать наборы данных и может автоматически выбрать больше информации, чем вы хотите. Если это произойдет, просто щелкните по элементам, которые вы не хотите выбирать, и они больше не будут включены. Это учит наш веб-скребок, что извлечь.

Теперь выберите атрибут элемента данных, который вы хотите извлечь. Например, «Текст» и нажмите «Далее». На следующем экране дайте ему название. Обратите внимание, что здесь вы хотите, чтобы все данные использовали шаблон по умолчанию. Это потому, что вы хотите, чтобы данные извлекались, когда они не находятся в специальном шаблоне.

После того, как вы выбрали все данные о товарах, которые хотите извлечь со страницы поиска товара. Выберите все ссылки для получения дополнительной информации на странице сведений о продукте. Это может быть, например, изображение. Затем нажмите Нажмите Элемент действие. Установите шаблон на «детализацию», затем задержите его на пять секунд и нажмите «Далее». Когда появится вопрос, хотите ли вы извлечь данные с новой страницы, выберите «да». Теперь выберите данные, которые вы хотите извлечь, как раньше. Но на этот раз укажите, что он должен выполняться по шаблону «detail».

Добавьте еще одну инструкцию по очистке и вернитесь на главную страницу. На этот раз выберите следующую кнопку из нумерации страниц. Когда Нажмите Действие появится окно выбора, выберите кнопка следующей страницы вариант. Таким образом, скребок знает, что эта кнопка на самом деле является кнопкой пагинации и разбивает все результаты на страницы. Пожалуйста, убедитесь, что у вас последняя инструкция по очистке. Если это не последняя инструкция очистки, ее можно перетащить до конца.

Затем перейдите на вкладку расписания и нажмите кнопку «Создать», чтобы начать очистку. Вы можете наблюдать за процессом очистки в режиме реального времени на странице «Управление скребками», щелкнув значок строки, а затем значок просмотра скрапа.