Я хотел бы использовать spacy для токенизации соскобов из Википедии. В идеале это будет работать так:
text = 'procedure that arbitrates competing models or hypotheses.[2][3] Researchers also use experimentation to test existing theories or new hypotheses to support or disprove them.[3][4]'
# run spacy
spacy_en = spacy.load("en")
doc = spacy_en(text, disable=['tagger', 'ner'])
tokens = [tok.text.lower() for tok in doc]
# desired output
# tokens = [..., 'models', 'or', 'hypotheses', '.', '[2][3]', 'Researchers', ...
# actual output
# tokens = [..., 'models', 'or', 'hypotheses.[2][3', ']', 'Researchers', ...]
Проблема в том, что «гипотезы. [2] [3]» склеены в один токен.
Как я могу запретить spacy подключить этот '[2] [3]' к предыдущему токену?
Пока оно отделено от слова гипотезы и точки в конце предложения, мне все равно, как оно обрабатывается. Но отдельные слова и грамматика должны оставаться в стороне от синтаксического шума.
Так, например, любое из следующего было бы желательным выводом:
'hypotheses', '.', '[2][', '3]'
-
hypotheses', '.', '[2', '][3]'