Пользовательские правила Hunspell для именованных объектов - PullRequest
0 голосов
/ 11 марта 2019

Как написать собственный словарь (.dic) и аффикс (.aff) для слов, которые именуются сущностями (следовательно, принадлежат таким категориям, как LOCATION, PERSON, ORGANIZATION и т. Д.), Например, «Нью-Йорк», «Дональд Трамп» , "Мерседес-Бенц" и др .?

При отсутствии правил аффикса и словаря типа

Ferrari/X po:ORGANIZATION
New York/X po:LOCATION
Donald Trump/X po:PERSON
Mercedes-Benz/X po:po:ORGANIZATION

тест с New York вернет:

{
  index: 8,
  word: 'Ferrari',
  stems: [ 'Ferrari' ],
  suggestion: [],
  correct: true,
  analysis: [ ' st:Ferrari po:ORGANIZATION' ],
},
{ 
  word: 'York',
  stems: [],
  suggestion: [ 'New York' ],
  correct: false,
  analysis: []
}

На самом деле я не определил правило X, это просто ссылка, хотя я использую po (это категория речи) в качестве категории для типа NER (например, LOCATION) как заполнитель для возврата категории в анализе. Есть две проблемы как минимум

  • Для слов без заглавных букв он не соответствует категории, такой как california, даже если добавляется правило, подобное

    California/SM po:LOCATION
    
  • Хотя для одного слова, например Ferrari, это нормально, и я возвращаю категорию в po, для слов вроде New York или Donald Trump o, скажем, The Notorious BIG, следовательно, с более чем два слова, это не будет работать должным образом. В этом случае ссылочное правило должно быть похоже на

    New York/X po:LOCATION
    

Примечание

Для имен собственных существительных требуется флаг M, тогда как флаг S обозначает имя существительное без заглавных букв.

Ссылка: Hunspell, мужчина: https://www.systutorials.com/docs/linux/man/4-hunspell/

...