Question

Я хочу извлечь текст из HTML-файлов для целей индексации и сделать это как можно быстрее. Вместо того, чтобы создавать что-то с нуля, я хочу посмотреть, сколько я смогу найти уже сделанного для меня.

В настоящее время я просто передаю вывод html2text, который работает, но между тем, чтобы быть python и пытаться предварительно оптимизировать текст, я уверен, что скорость может быть улучшена.

Итак, с приоритетом Linux / unix, какие библиотеки (c / c ++) лучше всего подходят для такого рода задач?

Vijay Mathew · Answer 1 · 28 января 2010

Для извлечения текста вы можете использовать HTML-анализатор, например htmlcxx или libxml . Вы также можете использовать любую библиотеку XML после очистки HTML. Для индексации текста вы можете использовать CLucene .

Индексирование текстового содержимого HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Индексирование текстового содержимого HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы