Парсер Spacy анализирует весь документ как одно предложение - PullRequest
0 голосов
/ 31 марта 2020

Я создаю модель Swedi sh для Spacy на тренировочном наборе suc3.0. Моя проблема в том, что анализатор анализирует весь документ как одно длинное предложение. Я изучил всю документацию, но не могу найти решение. Я пытался отключить тэггер при разборе, но это не имеет значения. Из того, что я понял, Spacy соблюдает более ранние границы предложений, поэтому я подумал, что тег swedi sh для закрытия предложения - это MAD, а не engli sh '.', И что из-за этого синтаксический анализатор "уважал", что Целое do c было одним длинным предложением, но, как я уже сказал, отключение тегера не имеет никакого значения. Цеторами, с которыми я инициализировал модель, является FastText. Был бы очень признателен за некоторую помощь.

1 Ответ

1 голос
/ 01 апреля 2020

Вам необходимо предоставить обучающие документы, которые содержат несколько предложений, чтобы синтаксический анализатор видел разрывы предложений во время обучения. Если корпус не содержит информации об абзацах, вы можете просто сгруппировать группы предложений размером с абзац (обычно я использую 10 предложений).

Теггер вообще не влияет на анализатор и отдельные теги / метки зависимостей также не должны иметь значения.

...