Question

dfResult = spark.readStream.format("delta").load(PATH)
dfResult.createOrReplaceTempView("Stream")

Попытка прочитать потоковые данные из дельта-таблицы, в которую я поместил все данные, и визуализировать их, выполнив:

%sql
SELECT Time, score
From Stream

Однако на графике отображаются только первые 1000 строк или Таблица.

Есть ли способы увидеть последние 1000 строк или отобразить все данные вместо первых 1000?

Maria Nazari · Answer 1 · 29 февраля 2020

вместо этого попробуйте упорядочить по дате

display(dfResult.orderBy("Time", ascending=False).limit(1000))

Javierif · Answer 2 · 21 февраля 2020

вы можете использовать ID для сортировки кадра данных и поднабора его с помощью limit (), чтобы убедиться, что вы получите именно те строки, которые вам нужны.

import pyspark.sql.functions as f

# add an index column (if you don't have it)
dfResult = dfResult.withColumn('index', f.monotonically_increasing_id())

# sort ascending and take first 1000 rows for df1
df1 = dfResult.orderBy("index", ascending=True).limit(1000)

# sort descending and take last 1000 rows for df2
df2 = dfResult.orderBy("index", ascending=False).limit(1000)

display(df2)

Отображение сэмплов на основе ТОЛЬКО первых 1000 строк в azure блоках данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Отображение сэмплов на основе ТОЛЬКО первых 1000 строк в azure блоках данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы