Я делаю школьный проект, который требует извлечения данных из веб-страниц.Чтобы быть точным, мне нужна библиотека или программа с открытым исходным кодом для извлечения удобочитаемого контента из HTML / текстовых данных.Что-то вроде веб-браузера, отображающего текстовое содержимое.
Я знаю, что синтаксический анализ html с помощью регулярных выражений является худшим способом извлечения текста из него.
Дополнительная информация:
Мне нужно это для вычисления сходствамежду текстовыми документами.
Любая помощь будет оценена.Спасибо