Я работаю над панелью управления, которая включает в себя облако слов для терминов социальных сетей, используемых в течение определенного периода времени.
В настоящее время я храню токены в виде списка внутри кадра данных в пандах, который будет выглядеть примерно так:
Tokens-Columns:
['this', 'is', 'a', 'sentence']
['another', 'sentence']
['last', 'sentence']
В настоящее время мой код выполняет итерацию по каждому списку, формируя плоский список, а затем подсчитывает с помощью коллекций. Однако, это действительно неэффективно, и при достижении миллионов записей требуется много времени для обработки.
Есть ли более эффективный способ сделать это?
Спасибо!