Я хочу применить к тексту теги POS. После этого я хочу удалить некоторые части текста (одно или несколько слов), но сохранить правильные теги POS. Как я могу этого добиться? Я хочу сделать теги POS в качестве первого шага, поскольку теги POS зависят от контекста токенов, и удаление токенов сначала изменит этот контекст.
Я думал об окружении промежутков, которые я хочу удалить, некоторыми символами (например, [или {), но я заметил, что эти символы также имеют теги POS. Влияют ли эти символы на теги POS других токенов, или я могу безопасно использовать их для отметки промежутков, которые я хочу удалить позже?
Другой вариант - сравнить токены в промежутке с токенами в do c а затем удалите совпадающие. Тем не менее, я хочу sh удалить только указанный c диапазон, а не все вхождения этого диапазона или его частей.
Изменить: я нашел решение:
Я создал Spacy Do c как для текста, так и для диапазона, который нужно удалить sh. Затем я перебираю каждый токен в тексте и пытаюсь сопоставить его с первым токеном диапазона. Если есть совпадение, я проверяю, совпадают ли все следующие токены в тексте с остальными токенами диапазона. Если это так, я удаляю соответствующие токены из текста.