Question

Я использую Pyspark

Мои входные данные выглядят следующим образом.

 COL1|COL2
|TYCO|130003|
|EMC |120989|
|VOLVO|102329|
|BMW|130157|
|FORD|503004|
|TYCO|130003|

Я создал DataFrame и запрашиваю дубликаты, как показано ниже.

from pyspark.sql import Row
from pyspark.sql import SparkSession
spark = SparkSession \
     .builder \
     .appName("Test") \
     .getOrCreate()

data = spark.read.csv("filepath")

data.registerTempTable("data")
spark.sql("SELECT count(col2)CNT, col2 from data GROUP BY col2 ").show()

Этодать правильный результат, но можем ли мы получить повторяющиеся значения в отдельной временной таблице.

output data in Temp1

+----+------+
|   1|120989|
|   1|102329|
|   1|130157|
|   1|503004|
+----+------+

выходные данные в temp2

+----+------+
|   2|130003|
+----+------+

dassum · Answer 1 · 23 сентября 2019

sqlDF = spark.sql("SELECT count(col2)CNT, col2 from data GROUP BY col2  having cnt > 1 ");
sqlDF.createOrReplaceTempView("temp2");

Дублирующиеся записи перемещаются в другую временную таблицу в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Дублирующиеся записи перемещаются в другую временную таблицу в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы