Question

Как создать Spark DataFrame из файла .txt.bz2 с именем «/datos/cite75_99.txt.bz2», пожалуйста?

Структура исходного текстового файла выглядит следующим образом:

"CITING","CITED"
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889

Желаемый результат - это Spark DataFrame, который подсчитывает количество каждой цитаты следующим образом:

 +--------+------+
 |NPatente|ncitas|
 +--------+------+
 | 3060453|  3   |
 | 3390168|  6   |
 | 3626542| 18   |
 | 3611507|  5   |
 | 3000113|  4   |

Жду вашего ответа.

Спасибо!

Shubham Jain · Answer 1 · 21 июня 2020

Вы можете прочитать это прямо в Spark Spark поддерживает сжатие bz2.

%pyspark
df = spark.read.csv(path_to_file)

Как создать Spark DataFrame из файла .txt.bz2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как создать Spark DataFrame из файла .txt.bz2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов