Индексирование текстового содержимого HTML - PullRequest
0 голосов
/ 28 января 2010

Я хочу извлечь текст из HTML-файлов для целей индексации и сделать это как можно быстрее. Вместо того, чтобы создавать что-то с нуля, я хочу посмотреть, сколько я смогу найти уже сделанного для меня.

В настоящее время я просто передаю вывод html2text, который работает, но между тем, чтобы быть python и пытаться предварительно оптимизировать текст, я уверен, что скорость может быть улучшена.

Итак, с приоритетом Linux / unix, какие библиотеки (c / c ++) лучше всего подходят для такого рода задач?

1 Ответ

2 голосов
/ 28 января 2010

Для извлечения текста вы можете использовать HTML-анализатор, например htmlcxx или libxml . Вы также можете использовать любую библиотеку XML после очистки HTML. Для индексации текста вы можете использовать CLucene .

...