Если вы думаете, что собираетесь использовать shuffle, вам, вероятно, лучше использовать решение из этого файла. Для realz.
случайное смешивание строк файла с 3 миллионами строк
По сути, алгоритм перемешивания имеет очень низкий период (то есть он не может найти все возможные комбинации из 3 миллионов файлов, не говоря уже о 30 миллионах). Если вы можете загрузить данные в память, то лучше всего, как говорится. В основном присвойте случайное число каждой строке и сортируйте этого плохого парня.
Смотрите эту тему. И вот, я сделал это для вас, чтобы вы ничего не испортили (это шутка),
import json
import random
from operator import itemgetter
a = set()
for i in range(0,193):
json_data = open("C:/Twitter/user/user_" + str(i) + ".json")
data = json.load(json_data)
a.update(d['su'] for d in data)
print "Cleaned length is: " + str(len(new))
new = [(random.random(), el) for el in a]
new.sort()
new = map(itemgetter(1), new)