Обработка зашумленных немеченых текстовых данных для определенного распознавания именованных объектов - PullRequest
0 голосов
/ 22 мая 2018

Я пытаюсь извлечь какую-то очень конкретную информацию.т.е. названия организаций из очень шумных данных.Пример таков:

AAC: 1233 BOB'S ELECTRONICS 12\323 ENTRY-123

Единственная важная часть для меня - ЭЛЕКТРОНИКА БОБА.Есть ли хороший синтаксический анализатор, который обрабатывает шумные данные, подобные этим, и дает фрагментированные результаты?Вот так:

(Bob's Electronics, Organization)

PS - Stanford Core NLP дает мне (Bob, person)

...