Оставьте строки в Pyspark - PullRequest
       3

Оставьте строки в Pyspark

0 голосов
/ 08 апреля 2019

Как я могу удалить значения строк в Pyspark на основе значения номера строки / значения индекса строки?

Я новичок в Pyspark (и кодирование) - я пытался что-то кодировать, но это не такрабочий.

Ответы [ 2 ]

0 голосов
/ 09 апреля 2019

Вы не можете сбросить определенные столбцы, но вы можете просто отфильтровать нужные, используя filter или его псевдоним where.

Представьте, что вы хотите "отбросить" строки, где возраст человека меньше 3. Вы можете просто сохранить противоположные строки, например:

df.filter(df.age >= 3)
0 голосов
/ 09 апреля 2019
import pyspark.sql.functions as F
schema1 = StructType([StructField('rownumber', IntegerType(), True),StructField('name', StringType(), True)])
data1 = [(1,'a'),(2,'b'),(3,'c'),(4,'d'),(5,'e')]
df1 = spark.createDataFrame(data1, schema1)
df1.show()
+---------+----+
|rownumber|name|
+---------+----+
|        1|   a|
|        2|   b|
|        3|   c|
|        4|   d|
|        5|   e|
+---------+----+
df1.filter(F.col("rownumber").between(2,4)).show()
+---------+----+
|rownumber|name|
+---------+----+
|        2|   b|
|        3|   c|
|        4|   d|
+---------+----+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...