Предположим, у меня есть словарь: ['привет', 'как', 'есть', 'ты'].У меня есть корпус многих текстов, например: ['привет', 'как', 'как'].Есть ли эффективный способ кодирования этого текста в список целых чисел, например, если я назначу 'hello' = 1, 'how' = 2, 'are' = 3, 'you' = 4,тогда мой текст выше будет закодирован как [1,2,2].
Мой контекст: я должен закодировать корпус из около 150 000 текстов.Размер словарного запаса составляет около 200 000.В целом, каждый текст содержит около 200 слов.
Я пробовал следующий код, но он кажется неэффективным.Это займет около 2 секунд / текст, поэтому мне понадобится 8-9 часов, чтобы закончить.
tokens_to_index = [[vocabulary.index(word)+1 for word in text] for text in corpus]