У меня есть огромные CSV-файлы размером ~ 15 ГБ в aws s3 (s3: //bucket1/rawFile.csv).Скажем, если схема выглядит следующим образом:
cust_id, account_num, paid_date, cust_f_name
1001, 1234567890, 01/01/2001, Jonathan
Я пытаюсь замаскировать столбец номера счета и имя клиента, создать новый maskedFile.csv и сохранить его в другом контейнере aws s3 (s3: //bucket2/maskedFile.csv) следующим образом:
cust_id, account_num, paid_date, cust_f_name
1001, 123*******, 01/01/2001, Jon*******
Это необходимо сделать один раз с одним снимком платежных данных.
Как я могу это сделать?и какие инструменты я должен использовать для достижения этой цели?Пожалуйста, дайте мне знать.