Я ищу библиотеку Java, которая может распознавать именованные объекты (NER) с настраиваемым словарным запасом, не требуя предварительно помеченных обучающих данных. Я искал некоторые на SE, но большинство вопросов довольно неопределенное.
Рассмотрим следующий вариант использования:
- редактор вводит статьи в CMS (около 500 слов).
- текст может содержать ссылки (в виде простого текста) на объекты определенного домена. например:
- названия достопримечательностей, таких как бары, рестораны, районы и т. Д.
- существует контролируемый словарь этих сущностей (около 5 000 сущностей).
- Я представляю, что сущность является кортежем в словаре
- после окончания текста пользователь должен иметь возможность сохранить документ.
- Это запускает рабочий процесс для сканирования фрагмента текста по словарю путем сравнения с именем объекта. Не обязательно иметь 100% совпадение: 97% на Jarao-winkler или что-то еще (я не знаю, что использует NER algo) может быть достаточно, мне нужно, чтобы это было настраиваемо.
- Хиты возвращаются на серверную часть контроллера. Это в свою очередь возвращает JSON клиенту, содержащему сущности, которые представлены в виде предлагаемых перекрестных ссылок на редактор.
В идеале, я ищу проект, который использует NRE, чтобы предлагать перекрестные ссылки в CMS-среде для дальнейшего использования. (Я уверен, что плагины для WordPress существуют, например) Не уверен, существует ли нечто подобное в Java.
Также приветствуются все другие более общие указатели на библиотеки NRE, которые работают с управляемыми пользовательскими словарями.