Я создаю небольшой алгоритм для извлечения текста с веб-сайтов .. затем найду ответы (опубликую сценарий после завершения).
Для этого мне нужно преобразовать весь HTML-код внутри и в простой читаемый английский текст.
Я вручную удалил все теги html, но от некоторых записей CSS трудно избавиться. Любые простые идеи о том, как преобразовать HTML в простой английский текст?
Спасибо.