Удалите повторяющиеся строки из фрейма данных Pyspark, которые имеют одинаковое значение, но в другом столбце - PullRequest
1 голос
/ 26 сентября 2019

Я хочу удалить повторяющиеся строки из двух столбцов.Строки, содержащие два значения, имеют одинаковые записи, но в обратном порядке.

|--------------|-------------------|
|   name       |   alt_name        |
|----------------------------------|
|  a10.samsung | a20.samsung       |
|  x.iphone    |  xr.iphone        |
|  3.nokia     |  5.nokia          |
| a20.samsung  | a10.samsung       |
| 5.nokia      | 3.nokia           |
|  xr.iphone   |  x.iphone         |
------------------------------------

Я хочу следующий вывод;

|--------------|-------------------|
|   name       |   alt_name        |
|----------------------------------|
|  3.nokia     |  5.nokia          |
|  a10.samsung | a20.samsung       |
|  x.iphone    |  xr.iphone        |
------------------------------------

1 Ответ

2 голосов
/ 26 сентября 2019

Вы можете сделать это, используя spark sql:

Я предполагаю, что ваше исходное имя информационного кадра в качестве мобильного телефона и код для удаления дубликатов:

mobiles.createTempView('tablename')

newDF= spark.sql("select * from tablename where name<=alt_name")

newDF.show()
...