Блумфильтр с искровым потоком (чтение данных из кафки) - PullRequest
0 голосов
/ 20 июня 2019

Я использую следующие строки для записи данных в формате HDFS orc. Я могу записывать данные в HDFS, но на hive --orcfiledump filename Я не видел ни одного фильтра Блума.

finalDf.writeStream
          .option("orc.bloom.filter.columns", "a,b")
          .option("checkpointLocation", "/user/cloudera")
          .format("orc")
          .partitionBy("x", "y")
          .option("zlib")
          .option("path", "/user/cloudera/records")              .trigger(ProcessingTime(25 seconds))
          .outputMode(OutputMode.Append())
          .start()
    query.awaitTermination()

как мне записать данные в формате orc, используя фильтр Блума, используя spark2.2

...