Как выполнить индексацию PDF-документа в какао - PullRequest
2 голосов
/ 02 февраля 2011

У меня есть документ в формате PDF, я хочу извлечь из этого файла несколько случайных слов и сохранить их (индексирование / тегирование)Затем я использую эти слова в качестве поисковых тегов для этого документа PDF.Обратите внимание, что я не могу напрямую использовать документ PDF для поиска слова, я должен передать теги, созданные для этого документа.Есть ли библиотека, которая будет извлекать мне эти слова из PDF?Это необходимо для моего приложения Mac.

Спасибо.

1 Ответ

0 голосов
/ 07 июля 2011

Вы можете попробовать Spotlight Query или открыть PDF с помощью PDFKit и поиска вручную .

Примечание: I 'Мне не совсем понятно, что вы подразумеваете под словами «я хочу получить ... слова из этого PDF» и «я не могу напрямую использовать документ PDF для поиска слова» ... оба эти понятия кажутся взаимоисключающими.

Обновление

Вы продолжаете говорить «случайные слова» ... Вы в буквальном смысле подразумеваете, что хотите: а) выбирать слова из документа случайным образом для использования в качестве тегов, б) проверить, есть ли в документе какие-либо слова из ранее существующего списка, или в) искать «какие-нибудь важные и интересные слова»?

Если вы имеете в виду «c», тогда используйте SearchKit для построения индекса в памяти .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...