распознавание именованных объектов без сопровождения (NER) с настраиваемым словарным запасом для предложений перекрестных ссылок в Java - PullRequest
6 голосов
/ 05 октября 2011

Я ищу библиотеку Java, которая может распознавать именованные объекты (NER) с настраиваемым словарным запасом, не требуя предварительно помеченных обучающих данных. Я искал некоторые на SE, но большинство вопросов довольно неопределенное.

Рассмотрим следующий вариант использования:

  • редактор вводит статьи в CMS (около 500 слов).
  • текст может содержать ссылки (в виде простого текста) на объекты определенного домена. например:
    • названия достопримечательностей, таких как бары, рестораны, районы и т. Д.
  • существует контролируемый словарь этих сущностей (около 5 000 сущностей).
    • Я представляю, что сущность является кортежем в словаре
  • после окончания текста пользователь должен иметь возможность сохранить документ.
  • Это запускает рабочий процесс для сканирования фрагмента текста по словарю путем сравнения с именем объекта. Не обязательно иметь 100% совпадение: 97% на Jarao-winkler или что-то еще (я не знаю, что использует NER algo) может быть достаточно, мне нужно, чтобы это было настраиваемо.
  • Хиты возвращаются на серверную часть контроллера. Это в свою очередь возвращает JSON клиенту, содержащему сущности, которые представлены в виде предлагаемых перекрестных ссылок на редактор.

В идеале, я ищу проект, который использует NRE, чтобы предлагать перекрестные ссылки в CMS-среде для дальнейшего использования. (Я уверен, что плагины для WordPress существуют, например) Не уверен, существует ли нечто подобное в Java.

Также приветствуются все другие более общие указатели на библиотеки NRE, которые работают с управляемыми пользовательскими словарями.

Ответы [ 2 ]

3 голосов
/ 07 декабря 2011

Для людей, которые ищут это в будущем:

«Приблизительное разделение по словарям» см .: http://alias -i.com / lingpipe / demos / tutorial / ne / read-me.html

(URL отредактирован.)

1 голос
/ 03 декабря 2011
...