Я хочу разбить текст на нграммы, но также получить их смещение в тексте.
В настоящее время я использую библиотеку NLTK в Python, но я не нашел никакого собственного способа вернуть смещение N-грамм.
Я нашел этот ответ , но мне было интересно, есть ли какая-либо библиотека, которая предлагает это без необходимости ее реализации. Моя проблема в том, что у меня есть несколько вхождений одной и той же N-граммы в тексте, который я хочу разделить.
Пример использования:
ngrams_with_offset("I like apples and I like oranges", 2)
>>> [("I", "like", offset=0),
("like", "apples", offset=2),
.......
("I", "like", offset=18),
..... ]