Я делаю проект на Python, который включает в себя:
- Извлечение исходного кода из веб-страницы в URL-адресе, заданном в качестве входных данных (с использованием Selenium с Chrome WebDriver)
- Анализ исходного кодаи извлеките видимый текст (используя BeautifulSoup)
- Выполните обработку естественного языка (NLP) на извлеченном тексте
Хотя, чтобы NLP был успешным, текст должен быть извлеченкак это визуально представлено в браузере - что не всегда совпадает с форматированием исходного кода, то есть иногда текст из абзаца разбивается на несколько различных элементов -> который разбивает скребок все вместе и делает егожизнеспособен для НЛП.
Я знаю, что это действительно сложная задача - разработать такой «визуальный» скребок, в отличие от «элементного», но есть ли что-то уже разработанное в этом направлении?