Библиотека Python для очистки отформатированного текста с произвольной веб-страницы - PullRequest
1 голос
/ 27 марта 2019

Я делаю проект на Python, который включает в себя:

  1. Извлечение исходного кода из веб-страницы в URL-адресе, заданном в качестве входных данных (с использованием Selenium с Chrome WebDriver)
  2. Анализ исходного кодаи извлеките видимый текст (используя BeautifulSoup)
  3. Выполните обработку естественного языка (NLP) на извлеченном тексте

Хотя, чтобы NLP был успешным, текст должен быть извлеченкак это визуально представлено в браузере - что не всегда совпадает с форматированием исходного кода, то есть иногда текст из абзаца разбивается на несколько различных элементов -> который разбивает скребок все вместе и делает егожизнеспособен для НЛП.

Я знаю, что это действительно сложная задача - разработать такой «визуальный» скребок, в отличие от «элементного», но есть ли что-то уже разработанное в этом направлении?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...