Question

Я хочу сделать поиск документов с помощью Python.Solr не работал, поскольку хостинг на Java был ограничением.

Так что, чёрт возьми, кажется очевидным вариантом.Но, похоже, он не индексирует doc или pdf файлы (как может Solr).Как сделать так, чтобы они косвенно индексировали эти файлы?

seanieb · Answer 1 · 24 августа 2011

Свисту просто нужен извлеченный текст из этих документов. В то время как библиотека Whoosh не будет выполнять это извлечение для вас, есть библиотеки Python, которые будут извлекать текст для вас, например, pdf miner, catdoc или antiword.

См. Эти два обсуждения для получения дополнительной информации:

Whoosh: индексирование документов MS, PDFs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Whoosh: индексирование документов MS, PDFs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы