У меня есть CSV-файл, который имеет следующий макет:
Website Text
A B
В первом столбце находится веб-сайт, а во втором - текст, который я вырезал из него.Это файл размером 1 ГБ.
Мне нужно как-то пройтись по каждой строке текста, не относящейся к сайту, и объединить ее в одну ячейку.Так, например:
Website Text
A Mary
B had a little lamb
станет:
Text
Mary had a little lamb
Я пробовал несколько вещей, панды не будут работать, потому что файл слишком велик для одновременного хранения в памяти, иЯ не знаю, как использовать pyspark / spark для этого.
Спасибо за любую помощь!