Несоответствия данных после ETL в QuickSight? - PullRequest
0 голосов
/ 23 октября 2019

У меня есть необработанные данные в RDS. Я использую AWS Glue для сканирования данных и экспортирую данные с помощью сценария ETL в Glue (полная точная копия, на данный момент никаких преобразований и изменений) в S3 в виде одного файла CSV. Я пытаюсь визуализировать эти данные в QuickSight, но у меня появляется другое понимание, когда я выполняю SQL-запросы к самим данным. Позже я отредактирую задания Glue, чтобы экспортировать различные срезы данных в S3, а затем визуализировать.

Что я пробовал и проблемы?

  1. Я загрузил CSV S3, чтобы убедиться, что CSV генерирует те же выходные данные, что и запросы SQL для таблицы RDS, и соответствует 100%. Это означает, что проблема связана с QuickSight, а не с клеем.
  2. Я попытался подключить файл S3, используя «S3» в качестве источника данных в QuickSight. Я использовал сценарий, представленный ниже. Проблема в том, что он использует SPICE, и я пытаюсь выполнить только прямой запрос (так как мои данные скоро вырастут в 100 раз, это всего лишь POC). Этот код используется в качестве манифеста:

    {
        "fileLocations": [
            {
                "URIs": [
                    "s3://pathofglueoutput/part-00000-blahblah.csv"
                ]
            },
            {
                "URIPrefixes": [
                    "s3://pathofglueoutput/"
                ]
            }
        ],
        "globalUploadSettings": {
            "format": "CSV",
            "delimiter": ",",
            "containsHeader": "true"
        }
    }
    
  3. Я попытался подключить файл S3 к Athena, а затем импортировать данные из Athena в QuickSight. Моя проблема в том, что Афина не будет «ежедневно обновляться», так что это не масштабируемый подход, поэтому я все равно хотел использовать S3 (вариант 2 выше).

Я пытаюсь понять, почемуданные из вывода ETL Glue (например, счетчик выбора (field1) s3data) и тот же счетчик для QuickSight (счетчик - не различается - для field1 s3data) полностью различаются.

...