португальский токенизатор: т разбивает «ао» на «а» и «о» - PullRequest
0 голосов
/ 04 сентября 2018

Я использую Spacy в качестве токенизатора для португальских документов (последняя версия).
Но он ошибается в следующем предложении: «esta quebrando aonde nao devia, обособленно друг от друга». Это разрыв «ао» в «а» и «о». То же самое происходит с другими словами, такими как «aonde» («a» + «onde») и othes («aos» и т. Д.). Другие странные случаи: «àquele» в «a» и «quele»; «às» в «à» и «s». Проблема может быть показана в «Проверка модели в реальном времени (экспериментальная)» в https://spacy.io/models/pt. Сейчас я добавляю некоторые известные слова с помощью tokenizer.add_special_case. Но я не могу вспомнить все случаи. Можно ли исправить эту проблему?

1 Ответ

0 голосов
/ 04 сентября 2018

Мне кажется уместным разбить выражение «ао» на две функциональные части: предлог и артикль. В зависимости от приложения было бы просто объединить эти части вместе, как того требует официальная грамматика.

...