Я пытаюсь прочитать файл паркета, используя boto3.Исходный файл имеет даты в следующем формате:
2016-12-07 23:00:00.000
И они хранятся как метки времени.
Мой код в Sage Maker:
boto_s3 = boto3.client('s3')
r = boto_s3.select_object_content(
Bucket='bucket_name',
Key='path/file.gz.parquet',
ExpressionType='SQL',
Expression=f"select fecha_instalacion,pais from s3object s ",
InputSerialization = {'Parquet': {}},
OutputSerialization = {'CSV': {}},
)
rl0 = list(r['Payload'])[0]
from io import StringIO
string_csv = rl0['Records']['Payload'].decode('ISO-8859-1')
csv = StringIO(string_csv)
pd.read_csv(csv, names=['fecha_instalacion', 'pais'])
Но вместо этогодаты, которую я получаю:
fecha_instalacion pais
45352962065516692798029824 ESPAÃA
Я перебрал даты, у которых только один день между ними, и число одинаковых цифр - первые 6. Как пример:
45337153205849123712294912--> 2016-12-09 23:00:00.000
45337116312360976293191680--> 2016-12-07 23:00:00.000
Мне нужно получить правильную форматированную дату и избегать особых символов.
Спасибо.