Инструменты для захвата и конвертирования Интернета

Конвертировать URL и HTML в DOCXPython API

Добавление возможности конвертировать HTML или веб-страницы into Документы Word для вашего приложения никогда не было проще с GrabzIt Python API, Однако, прежде чем начать, помните, что после вызова URLToDOCX, HTMLToDOCX or FileToDOCX методы Save or SaveTo метод должен быть вызван для создания DOCX.

Основные параметры

Захват веб-страниц как DOCX преобразует всю веб-страницу intДокумент Word, который может состоять из множества страниц. Для преобразования веб-страницы требуется только один параметр intдокумент Word или конвертировать HTML в DOCX как показано в приведенных ниже примерах.

grabzIt.URLToDOCX("https://www.tesla.com")
# Then call the Save or SaveTo method
grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>")
# Then call the Save or SaveTo method
grabzIt.FileToDOCX("example.html")
# Then call the Save or SaveTo method

Пользовательский идентификатор

Вы можете передать пользовательский идентификатор DOCX методами, как показано ниже, это значение затем возвращается в ваш обработчик GrabzIt Python. Например, этот пользовательский идентификатор может быть идентификатором базы данных, позволяя связать документ DOCX с конкретной записью базы данных.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")

Верхние и нижние колонтитулы

Чтобы добавить верхний или нижний колонтитул к документу Word, вы можете запросить, чтобы вы хотели применить определенный шаблон в DOCX генерируется. Этот шаблон должен быть saved заранее и определит содержимое верхнего и нижнего колонтитула вместе с любыми специальными переменными. В приведенном ниже примере кода пользователь использует созданный им шаблон, который называется «мой шаблон».

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")

Конвертировать HTML элемент в DOCX

Если вы хотите просто конвертировать HTML-элемент, такой как div или span напрямую intДокумент Word вы можете с помощью библиотеки Python GrabzIt. Вы должны пройти CSS селектор элемента HTML, который вы хотите преобразовать в targetElement метод ГрабзитDOCXOptions класса.

...
<span id="Article">
<p>This is the content I am interested in.</p>
<img src="myimage.jpg">
</span>
...

В этом примере мы хотим захватить весь контент в диапазоне, который имеет идентификатор Articleпоэтому мы передаем это в GrabzIt API, как показано ниже.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.targetElement = "#Article"

grabzIt.URLToDOCX("http://www.bbc.co.uk/news", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")