Я могу удалить пунктуацию из текста, используя Nltk RegExTokenizer
. Я хочу получить исходный индекс элемента tokens
из исходного masked_ocr_text
без пунктуации.
Как мне этого добиться? Ниже приведен код
tokenizer = nltk.RegexpTokenizer(r"\w+")
tokens=tokenizer.tokenize(masked_ocr_text)
actual_tokens = nltk.tokenizer.word_tokenize(masked_ocr_text)
Например:
masked_ocr_text = 'This is sample, in order to check!"
tokens = ['This','is',sample','in','order','to','check']
actual_tokens = ['This','is',sample',',','in','order','to','check','!']
Я хочу получить индекс из actual_tokens
для некоторого необходимого tokens
значения.