Я хочу извлечь текст из HTML-файлов для целей индексации и сделать это как можно быстрее. Вместо того, чтобы создавать что-то с нуля, я хочу посмотреть, сколько я смогу найти уже сделанного для меня.
В настоящее время я просто передаю вывод html2text, который работает, но между тем, чтобы быть python и пытаться предварительно оптимизировать текст, я уверен, что скорость может быть улучшена.
Итак, с приоритетом Linux / unix, какие библиотеки (c / c ++) лучше всего подходят для такого рода задач?