Открытие файла PDF и поиск там имен - PullRequest
3 голосов
/ 05 апреля 2011

У меня есть файл PDF.И я хочу искать там имена.

  1. Как открыть PDF и получить весь его текст с помощью Ruby?
  2. Существуют ли алгоритмы для поиска имен?
  3. Что я должен использовать в качестве поисковой системы: Sphinx или что-то более простое (просто как SQL-запросы)?

Ответы [ 2 ]

6 голосов
/ 06 апреля 2011

Чтобы найти собственные имена в неструктурированном тексте, техническим именем проблемы, которую вы пытаетесь решить, является Распознавание именованных сущностей или Извлечение именованных сущностей. Существует множество различных инструментальных средств и исследовательских работ на естественном языке, в которых реализованы различные алгоритмы для решения этой проблемы. Ни один из них не получит идеальной точности, но может быть достаточно для ваших нужд. Я сам не пробовал, но на веб-странице Stanford Named Entity Recognizer есть ссылка на Ruby Bindings.

3 голосов
/ 06 апреля 2011

Сложный вопрос.Эти домены остаются в области исследований семантической сети.Я могу предложить только несколько треков, но было бы интересно узнать ваш определенный выбор.

  1. Я бы использовал pdf-reader: https://github.com/yob/pdf-reader

  2. Вы могли быиспользуйте фильтр Блума, соответствующий словарю.Можно предположить, что слова, не соответствующие словарю, являются именами ... Не всегда реалистичными, но это первый подход.Чтобы получить больше имен, вы можете проверить слова, начинающиеся с заглавной буквы (не очень, но мы продолжаем находить некоторые основные подходы).Некоторый потенциальный ресурс: http://snippets.dzone.com/posts/show/4235

  3. Для вашей поисковой системы два основных варианта использования Rails - Sphinx и SolR.

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...