Как написать собственный словарь (.dic
) и аффикс (.aff
) для слов, которые именуются сущностями (следовательно, принадлежат таким категориям, как LOCATION, PERSON, ORGANIZATION
и т. Д.), Например, «Нью-Йорк», «Дональд Трамп» , "Мерседес-Бенц" и др .?
При отсутствии правил аффикса и словаря типа
Ferrari/X po:ORGANIZATION
New York/X po:LOCATION
Donald Trump/X po:PERSON
Mercedes-Benz/X po:po:ORGANIZATION
тест с New York
вернет:
{
index: 8,
word: 'Ferrari',
stems: [ 'Ferrari' ],
suggestion: [],
correct: true,
analysis: [ ' st:Ferrari po:ORGANIZATION' ],
},
{
word: 'York',
stems: [],
suggestion: [ 'New York' ],
correct: false,
analysis: []
}
На самом деле я не определил правило X
, это просто ссылка, хотя я использую po
(это категория речи) в качестве категории для типа NER
(например, LOCATION
) как заполнитель для возврата категории в анализе.
Есть две проблемы как минимум
Для слов без заглавных букв он не соответствует категории, такой как california
, даже если добавляется правило, подобное
California/SM po:LOCATION
Хотя для одного слова, например Ferrari
, это нормально, и я возвращаю категорию в po
, для слов вроде New York
или Donald Trump
o, скажем, The Notorious BIG
, следовательно, с более чем два слова, это не будет работать должным образом. В этом случае ссылочное правило должно быть похоже на
New York/X po:LOCATION
Примечание
Для имен собственных существительных требуется флаг M
, тогда как флаг S
обозначает имя существительное без заглавных букв.
Ссылка: Hunspell, мужчина: https://www.systutorials.com/docs/linux/man/4-hunspell/