Spacy: сокращение одной буквы при добавлении новых языков - PullRequest
0 голосов
/ 18 октября 2018

Я работаю / экспериментирую с добавлением языков, в частности, португальского, но у меня проблема с сокращением "а".

Из документации написано, что "объединенные значения ORTH всегда должны соответствовать исходной строке. "Однако слово «а» на португальском языке является сокращением предлога «а» со статьей «а».Я пытался добавить это исключение с помощью:

"à": [
    {ORTH: "à", NORM: "a"},
    {ORTH: "", NORM: "a"}],

Потому что тогда он жалуется на пустую строку.

Как добавить этот случай в токенизатор, чтобы он распознал этот конкретный случай?Это будет необходимо для POS.

...