Вы можете сделать это, заменив функцию lex_attr_getters[IS_PUNCT]
на пользовательскую, которая содержит список символов, описывающих дополнительные символы.
import spacy
from spacy.symbols import IS_PUNCT
from spacy.lang.en import EnglishDefaults
def is_punct_custom(text):
extra_punct = ["|"]
if text in extra_punct:
return True
return is_punct_original(text)
# Keep a reference to the original is_punct function
is_punct_original = EnglishDefaults.lex_attr_getters[IS_PUNCT]
# Assign a new function for IS_PUNCT
EnglishDefaults.lex_attr_getters[IS_PUNCT] = is_punct_custom