pyspark drop и объединять строки - PullRequest
0 голосов
/ 01 июня 2018

Я пытаюсь проанализировать какой-то файл и поместить данные в таблицу:

File = "somehtml.file"  
Data = spark.read.text(File)

df_file = Data.select(regexp_extract("col1", '(.*?)', 0).alias("somedata"), \
                regexp_extract("col1", '(.*?)', 0).alias("somedata2"))

после этого у меня нет правильного результата:

+--------------------+--------------------+
|            somedata|           somedata2|
+--------------------+--------------------+
|http://sweersdsh.ru....|                    |
|                    |helo my name lololol...|
|                    |                    |
|                    |                    |
|http://qweuiewjk.ru....|                    |
|                    |helo my name alallal...|

, и мне нужен был этот:

+--------------------+--------------------+ | somedata| somedata2| +--------------------+--------------------+ |http://sweersdsh.ru....|helo my name lololol...| |http://qweuiewjk.ru....|helo my name alallal...|

это любой '', пожалуйста, помогите мне

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...