Как получить оригинальное значение токена текста с помощью Nltk RegexTokenizer - PullRequest
0 голосов
/ 24 апреля 2020

Я могу удалить пунктуацию из текста, используя Nltk RegExTokenizer. Я хочу получить исходный индекс элемента tokens из исходного masked_ocr_text без пунктуации.

Как мне этого добиться? Ниже приведен код

tokenizer = nltk.RegexpTokenizer(r"\w+")
tokens=tokenizer.tokenize(masked_ocr_text)
actual_tokens = nltk.tokenizer.word_tokenize(masked_ocr_text)

Например:

masked_ocr_text = 'This is sample, in order to check!"
tokens = ['This','is',sample','in','order','to','check']
actual_tokens = ['This','is',sample',',','in','order','to','check','!']

Я хочу получить индекс из actual_tokens для некоторого необходимого tokens значения.

...