Каков наиболее эффективный способ хранения списка внутри столбца панд? - PullRequest
0 голосов
/ 05 марта 2019

У меня есть фрейм данных для панд, содержащий 100 миллионов твитов.

Я извлек URL из данных и в настоящее время храню их в виде списка в столбце панд: Фрейм данных

Я хочу провести анализ этих URL-адресов (например, сортировку по доменному имени, выяснение, какой тип пользователя разместил и какие домены).

Можно ли хранить так: Пользовательский

где столбец URL представляет собой серию панд с динамическим размером, чтобы я мог легко обрабатывать?В противном случае, что было бы лучшим способом сохранить URL для эффективности при применении операций и скорости панд?

1 Ответ

0 голосов
/ 05 марта 2019

да, если вы объединяете строки с \n, например, 'url1 \ nurl2 \ nurl3'

, если у вас есть список URL, вы можете использовать join:

listurl = ['url1','url2','url3']
print('\n'.join(listurl))
...