Python NLP Text Tokenization на основе пользовательского регулярного выражения - PullRequest
0 голосов
/ 26 февраля 2020

Я обрабатываю большое количество текста для пользовательского (NER) распознавания именованных объектов с использованием Spacy. Для предварительной обработки текста я использую nltk для токенизации..et c.

Я могу обработать одну из моих пользовательских сущностей, которая основана на простых строках. Но другой пользовательский объект - это комбинация числа и определенного текста (например, 20 BBL). Метод word_tokenize из nltk.tokenize создает токены по 20 и «BBL» по отдельности, каждый как отдельный токен. Я хочу обработать их (число и строку «BBL») как один токен.

Я могу извлечь все вхождения, используя регулярное выражение:

re.findall(r'.\d+\s+BBL', Text)

Примечание: я делаю это, потому что стандартная модель Spacy Engli sh NER по ошибке признает это именованными сущностями «Деньги» или «Кардинал». Поэтому я хочу, чтобы он перенастроил мою пользовательскую модель, поэтому мне нужно передать ее с этим шаблоном (число и строка «BBL») как один токен, который указывает на мою пользовательскую сущность.

...