У меня есть необработанные данные в RDS. Я использую AWS Glue для сканирования данных и экспортирую данные с помощью сценария ETL в Glue (полная точная копия, на данный момент никаких преобразований и изменений) в S3 в виде одного файла CSV. Я пытаюсь визуализировать эти данные в QuickSight, но у меня появляется другое понимание, когда я выполняю SQL-запросы к самим данным. Позже я отредактирую задания Glue, чтобы экспортировать различные срезы данных в S3, а затем визуализировать.
Что я пробовал и проблемы?
- Я загрузил CSV S3, чтобы убедиться, что CSV генерирует те же выходные данные, что и запросы SQL для таблицы RDS, и соответствует 100%. Это означает, что проблема связана с QuickSight, а не с клеем.
Я попытался подключить файл S3, используя «S3» в качестве источника данных в QuickSight. Я использовал сценарий, представленный ниже. Проблема в том, что он использует SPICE, и я пытаюсь выполнить только прямой запрос (так как мои данные скоро вырастут в 100 раз, это всего лишь POC). Этот код используется в качестве манифеста:
{
"fileLocations": [
{
"URIs": [
"s3://pathofglueoutput/part-00000-blahblah.csv"
]
},
{
"URIPrefixes": [
"s3://pathofglueoutput/"
]
}
],
"globalUploadSettings": {
"format": "CSV",
"delimiter": ",",
"containsHeader": "true"
}
}
Я попытался подключить файл S3 к Athena, а затем импортировать данные из Athena в QuickSight. Моя проблема в том, что Афина не будет «ежедневно обновляться», так что это не масштабируемый подход, поэтому я все равно хотел использовать S3 (вариант 2 выше).
Я пытаюсь понять, почемуданные из вывода ETL Glue (например, счетчик выбора (field1) s3data) и тот же счетчик для QuickSight (счетчик - не различается - для field1 s3data) полностью различаются.