Не только извлечение мест из текста, но и других имен в географии (Python) - PullRequest
0 голосов
/ 15 февраля 2019

Я пытаюсь извлечь только названия городов из текста, поэтому я использую библиотеку географии с python, но в выводе были извлечены некоторые другие имена.Вот мой код:

from geograpy.extraction import Extractor
text6 = u"""Some text..."""
e6 = Extractor(text=text6)
e6.find_entities()
print(e6.places)

ТЕКСТ ВВОДА: -

Лидер оппозиции Махинда Раджапакса говорит, что вся государственная администрация рухнула из-за произвольных действий конституционного совета.Лидер оппозиции сказал, что в ответ на запрос журналиста, поднятый после проведенного митинга ...

ВЫХОД

['Opposition', 'Leader Mahinda Rajapaksa', 'Opposition Leader']

В этом тексте нет названий городов, поэтомувывод должен быть пустым

1 Ответ

0 голосов
/ 16 февраля 2019

Читая его исходный код , можно обнаружить, что places является атрибутом класса Extractor, и позже он устанавливается в методе find_entities.В методе find_entities он находит именованные сущности типа 'GPE', 'PERSON' или 'ORGANIZATION' и заполняет их в places.

Эти именованные типы сущностей определены в "5Раздел «Признание названного субъекта» nltk book :

«GPE»: геополитические объекты, такие как город, штат / провинция и страна

Таким образом, вы можете видеть, что find_entities не имеет никакого отношения к названиям городов.

Чтобы найти названия городов из фрагмента текста, следуйте примеру здесь .

...