Эффективное хранение / запрос токенов слов в Python - PullRequest
0 голосов
/ 06 сентября 2018

Я работаю над панелью управления, которая включает в себя облако слов для терминов социальных сетей, используемых в течение определенного периода времени.

В настоящее время я храню токены в виде списка внутри кадра данных в пандах, который будет выглядеть примерно так:

Tokens-Columns:
['this', 'is', 'a', 'sentence']
['another', 'sentence']
['last', 'sentence']

В настоящее время мой код выполняет итерацию по каждому списку, формируя плоский список, а затем подсчитывает с помощью коллекций. Однако, это действительно неэффективно, и при достижении миллионов записей требуется много времени для обработки.

Есть ли более эффективный способ сделать это?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...