Я хочу удалить все правильные существительные из большого корпуса.Из-за большого объема я беру ярлык и удаляю все слова, начинающиеся с заглавных букв.Для первого слова каждого предложения я также хочу проверить, является ли это собственно существительным.Как я могу сделать это без использования тегера.Один из вариантов - сделать скрининг, используя список общих имен собственных.Есть ли лучший способ и где я могу получить такой список?Благодарю.
Я попробовал NLTK pos_tag и Standford NER.Без контекста они не работают хорошо.
ner_tagger = StanfordNERTagger(model,jar)
names = ner_tagger.tag(first_words)
types = ["DATE", "LOCATION", "ORGANIZATION", "PERSON", "TIME"]
for name, type in names:
if type in types:
print(name, type)
Ниже приведены некоторые результаты.
Abnormal ORGANIZATION
Abnormally ORGANIZATION
Abraham ORGANIZATION
Absorption ORGANIZATION
Abundant ORGANIZATION
Abusive ORGANIZATION
Academic ORGANIZATION
Acadia ORGANIZATION
Слишком много ложных срабатываний, поскольку первая буква предложения всегда пишется с большой буквы.После того, как я изменил слова на все строчные буквы, NER даже пропустил такие общие понятия, как Америка и Америка.