Question

Я делаю проект на Python, который включает в себя:

Извлечение исходного кода из веб-страницы в URL-адресе, заданном в качестве входных данных (с использованием Selenium с Chrome WebDriver)
Анализ исходного кодаи извлеките видимый текст (используя BeautifulSoup)
Выполните обработку естественного языка (NLP) на извлеченном тексте

Хотя, чтобы NLP был успешным, текст должен быть извлеченкак это визуально представлено в браузере - что не всегда совпадает с форматированием исходного кода, то есть иногда текст из абзаца разбивается на несколько различных элементов -> который разбивает скребок все вместе и делает егожизнеспособен для НЛП.

Я знаю, что это действительно сложная задача - разработать такой «визуальный» скребок, в отличие от «элементного», но есть ли что-то уже разработанное в этом направлении?

Библиотека Python для очистки отформатированного текста с произвольной веб-страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Библиотека Python для очистки отформатированного текста с произвольной веб-страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы