Удалите промежутки в do c, но сохраните теги POS в Spacy - PullRequest
0 голосов
/ 18 июня 2020

Я хочу применить к тексту теги POS. После этого я хочу удалить некоторые части текста (одно или несколько слов), но сохранить правильные теги POS. Как я могу этого добиться? Я хочу сделать теги POS в качестве первого шага, поскольку теги POS зависят от контекста токенов, и удаление токенов сначала изменит этот контекст.

Я думал об окружении промежутков, которые я хочу удалить, некоторыми символами (например, [или {), но я заметил, что эти символы также имеют теги POS. Влияют ли эти символы на теги POS других токенов, или я могу безопасно использовать их для отметки промежутков, которые я хочу удалить позже?

Другой вариант - сравнить токены в промежутке с токенами в do c а затем удалите совпадающие. Тем не менее, я хочу sh удалить только указанный c диапазон, а не все вхождения этого диапазона или его частей.

Изменить: я нашел решение:

Я создал Spacy Do c как для текста, так и для диапазона, который нужно удалить sh. Затем я перебираю каждый токен в тексте и пытаюсь сопоставить его с первым токеном диапазона. Если есть совпадение, я проверяю, совпадают ли все следующие токены в тексте с остальными токенами диапазона. Если это так, я удаляю соответствующие токены из текста.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...