Я хочу использовать html-парсер, который красиво и элегантно делает следующее
- Извлечение текста (это самое главное)
- Извлечение ссылок, мета-ключевые слова
- Реконструкция оригинального документа (дополнительная, но приятная функция)
Из моего расследования до сих пор Иерихон , кажется, подходит. Любые другие библиотеки с открытым исходным кодом, которые вы, ребята, порекомендовали бы?