Question

Я пытаюсь использовать nltk для определения личности, организации и места из предложения.

Мой вариант использования заключается в извлечении имени, организации и места аудитора из годового финансового отчета

С nltk в python результаты не кажутся действительно удовлетворительными

import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

ex='Alastair John Richard Nuttall (Senior statutory auditor) for and on behalf of Ernst & Young LLP (Statutory auditor) Leeds'

ne_tree = ne_chunk(pos_tag(word_tokenize(ex)))

print(ne_tree)

Tree('S', [Tree('PERSON', [('Alastair', 'NNP')]), Tree('PERSON', [('John', 'NNP'), ('Richard', 'NNP'), ('Nuttall', 'NNP')]), ('(', '('), Tree('ORGANIZATION', [('Senior', 'NNP')]), ('statutory', 'NNP'), ('auditor', 'NN'), (')', ')'), ('for', 'IN'), ('and', 'CC'), ('on', 'IN'), ('behalf', 'NN'), ('of', 'IN'), Tree('GPE', [('Ernst', 'NNP')]), ('&', 'CC'), Tree('PERSON', [('Young', 'NNP'), ('LLP', 'NNP')]), ('(', '('), ('Statutory', 'NNP'), ('auditor', 'NN'), (')', ')'), ('Leeds', 'NNS')])

Как видно из вышеизложенного, «Лидс» не обозначен как место, а ТОО «Эрнст энд Янг» не признано Организацией

Есть ли лучшие способы добиться этого в Python?

aab · Answer 1 · 09 апреля 2019

Попробуйте spacy вместо NLTK:

https://spacy.io/usage/linguistic-features#named-entities

Я думаю, что предварительно обученные модели spacy, вероятно, будут работать лучше.Результаты (с spacy 2.1, en_core_web_lg) для вашего предложения:

Аластер Джон Ричард Наттолл ЧЕЛОВЕК
Ernst & Young LLP ORG
Leeds GPE

Распознавание именованных объектов с использованием NLTK: извлечение имени, адреса и организации аудитора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распознавание именованных объектов с использованием NLTK: извлечение имени, адреса и организации аудитора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы