Я использую spaCy для задачи NER. Мои тренировочные данные выглядят следующим образом:
Total HDL Cholestrol <mulitple-spaces> Photometry <multiple-spaces> 12.3 <multiple-spaces> mg/dl <multiple-spaces> 0-45
(Примечание: несколько пробелов между словами.)
Я комментировал каждое слово следующим образом:
Total-BTest HDL-ITest Cholestrol-LTest <mulitple-spaces> Photometry-UTech <mulitple-spaces> 12.3-UVal <mulitple-spaces> mg/dl-UUnit <mulitple-spaces> 0-45-O
Если мой тестданные также должны быть в том же формате (слова с несколькими пробелами) для пространственного распознавания объектов?
Я проверил обученную модель пространств со следующими параметрами:
Total Cholestrol <single-space> Photometry <single-space> 56.9 <single-space> mg/dl <single-space> 0-45
Моя модель смоглаправильно распознать сущности в вышеуказанном случае. Но в приведенном ниже случае:
Total Cholestrol Photometry 56.9 mg/dl 0-45
(Примечание: между словами не должно быть нескольких пробелов)
Модель не смогла распознать объекты.
У меня вопрос такой,Учитывает ли spacy несколько пробелов между словами во время обучения?
Если это так, будет ли возможным удаление нескольких пробелов в обучающем наборе?