Имеют ли значение пробелы между словами при извлечении сущностей с помощью SpaCy? - PullRequest
0 голосов
/ 06 октября 2019

Я использую spaCy для задачи NER. Мои тренировочные данные выглядят следующим образом:

Total HDL Cholestrol <mulitple-spaces>        Photometry <multiple-spaces>          12.3 <multiple-spaces>        mg/dl <multiple-spaces>       0-45

(Примечание: несколько пробелов между словами.)

Я комментировал каждое слово следующим образом:

Total-BTest HDL-ITest Cholestrol-LTest <mulitple-spaces>       Photometry-UTech <mulitple-spaces>        12.3-UVal  <mulitple-spaces>       mg/dl-UUnit <mulitple-spaces>      0-45-O

Если мой тестданные также должны быть в том же формате (слова с несколькими пробелами) для пространственного распознавания объектов?

Я проверил обученную модель пространств со следующими параметрами:

Total Cholestrol <single-space>       Photometry <single-space>         56.9 <single-space>        mg/dl <single-space>           0-45

Моя модель смоглаправильно распознать сущности в вышеуказанном случае. Но в приведенном ниже случае:

Total Cholestrol Photometry 56.9 mg/dl 0-45

(Примечание: между словами не должно быть нескольких пробелов)

Модель не смогла распознать объекты.

У меня вопрос такой,Учитывает ли spacy несколько пробелов между словами во время обучения?

Если это так, будет ли возможным удаление нескольких пробелов в обучающем наборе?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...