потребляя из кафки в друиде, сворачивание объединяет две строки в 1 вместо их добавления - PullRequest
0 голосов
/ 03 апреля 2020

Я пытаюсь использовать druid для получения событий от kafka, однако, когда я использую свертку для получения данных, количество событий кажется неправильным. без сворачивания числа точны. Я использую Друид 0.17.1. я наблюдал, что, хотя сведение происходит вместо того, чтобы агрегировать события в n, оно агрегирует в 1.

, вот мое употребление spe c

{
    "dataSchema": {
         "dataSource": "notificationstatus",
         "timestampSpec": {
            "column": "date",
            "format": "yyyy-MM-dd-HH:mm:ss Z",
            "missingValue": null
         },
        "dimensionsSpec": {
            "dimensions": [{
                    "type": "string",
                    "name": "Process",
                    "multiValueHandling": "SORTED_ARRAY",
                    "createBitmapIndex": true
                },
                {
                    "type": "string",
                    "name": "Channel",
                    "multiValueHandling": "SORTED_ARRAY",
                    "createBitmapIndex": true
                },
                {
                    "type": "string",
                    "name": "Status",
                    "multiValueHandling": "SORTED_ARRAY",
                    "createBitmapIndex": true
                },
                {
                    "type": "string",
                    "name": "Message",
                    "multiValueHandling": "SORTED_ARRAY",
                    "createBitmapIndex": true
                },
                {
                    "type": "string",
                    "name": "CampaignID",
                    "multiValueHandling": "SORTED_ARRAY",
                    "createBitmapIndex": true
                },
                {
                    "type": "string",
                    "name": "BannerID",
                    "multiValueHandling": "SORTED_ARRAY",
                    "createBitmapIndex": true
                }
            ],
            "dimensionExclusions": [
                "date",
                "count"
            ]
        },
        "metricsSpec": [{
            "type": "count",
            "name": "count"
        }],
        "granularitySpec": {
            "type": "uniform",
            "segmentGranularity": "HOUR",
            "queryGranularity": "MINUTE",
            "rollup": true,
            "intervals": null
        },
        "transformSpec": {
            "filter": {
                "type": "not",
                "field": {
                    "type": "like",
                    "dimension": "Status",
                    "pattern": "INFO",
                    "escape": null,
                    "extractionFn": null
                }
            },
            "transforms": []
        }
    },
    "ioConfig": {
        "topic": "notificationstatus",
        "inputFormat": {
            "type": "tsv",
            "columns": [
                "source",
                "ymd",
                "date",
                "Process",
                "deviceID",
                "Channel",
                "CampaignID",
                "BannerID",
                "Status",
                "Message",
                "11",
                "12"
            ],
            "listDelimiter": null,
            "delimiter": "\t",
            "findColumnsFromHeader": false,
            "skipHeaderRows": 0
        },
        "replicas": 1,
        "taskCount": 1,
        "taskDuration": "PT3600S",
        "consumerProperties": {},
        "pollTimeout": 100,
        "startDelay": "PT5S",
        "period": "PT30S",
        "useEarliestOffset": false,
        "completionTimeout": "PT1800S",
        "lateMessageRejectionPeriod": null,
        "earlyMessageRejectionPeriod": null,
        "lateMessageRejectionStartDateTime": null,
        "stream": "notificationstatus",
        "useEarliestSequenceNumber": false,
        "type": "kafka"
    },
    "tuningConfig": {
        "type": "kafka",
        "maxRowsInMemory": 1000000,
        "maxBytesInMemory": 0,
        "maxRowsPerSegment": 5000000,
        "maxTotalRows": null,
        "intermediatePersistPeriod": "PT10M",
        "basePersistDirectory": "/home/akash/Downloads/druidVer/apache-druid-0.17.1/var/tmp/druid-realtime-persist622909873559398926",
        "maxPendingPersists": 0,
        "indexSpec": {
            "bitmap": {
                "type": "concise"
            },
            "dimensionCompression": "lz4",
            "metricCompression": "lz4",
            "longEncoding": "longs"
        },
        "indexSpecForIntermediatePersists": {
            "bitmap": {
                "type": "concise"
            },
            "dimensionCompression": "lz4",
            "metricCompression": "lz4",
            "longEncoding": "longs"
        },
        "buildV9Directly": true,
        "reportParseExceptions": false,
        "handoffConditionTimeout": 0,
        "resetOffsetAutomatically": false,
        "segmentWriteOutMediumFactory": null,
        "workerThreads": null,
        "chatThreads": null,
        "chatRetries": 8,
        "httpTimeout": "PT10S",
        "shutdownTimeout": "PT80S",
        "offsetFetchPeriod": "PT30S",
        "intermediateHandoffPeriod": "P2147483647D",
        "logParseExceptions": false,
        "maxParseExceptions": 2147483647,
        "maxSavedParseExceptions": 0,
        "skipSequenceNumberAvailabilityCheck": false,
        "repartitionTransitionDuration": "PT120S"
    },
    "type": "kafka"
}
...