Как создавать собственные теги NER и обрабатывать большие данные в spaCy? - PullRequest
0 голосов
/ 21 января 2019

Я пытаюсь заставить spaCy распознавать некоторые имена и даты в документе и использовать их для обновления другого документа формы, и я не уверен, что это лучший способ сделать это.Использование Spa.Cy entity.label_ в качестве дополнения к регулярному выражению было очень полезно при разборе базового документа и позволяет мне обновлять несколько форм одновременно, извлекая и заменяя соответствующие значения.Однако с каждым базовым документом мне приходится анализировать данные и сбрасывать параметры.В этих документах не так много различий, поэтому я чувствую, что довольно легко заставить spaCy распознавать информацию, которую я ищу, самостоятельно с учетом достаточного количества примеров.Я довольно новичок в программировании НЛП, поэтому любые указатели будут полезны.

Моя самая большая проблема сейчас связана с тренировками на больших наборах данных.У меня есть несколько файлов .txt, каждый из которых содержит пару тысяч слов, но открытие текстовых файлов с помощью .read () для TRAIN_DATA не обрабатывает информацию правильно, а просто выводит:

('\ x00t \ x00h\ x00e \ x00 ',' ', 2), (' \ x00A \ x00g \ x00r \ x00e \ x00e \ x00m \ x00e \ x00n \ x00t \ x00. \ x00 ',' ', 2), (' \ x00 ', '', 2)]

как токены.Я могу вводить текст напрямую, но у меня в редакторе массивные текстовые стены, и это кажется очень неэффективным в вычислительном отношении.Могу ли я тренировать большие порции данных за один раз, или я должен подавать TRAIN_DATA небольшие выборочные фразы, определяющие сущности по одному?

...