Как создать Spark DataFrame из файла .txt.bz2 с именем «/datos/cite75_99.txt.bz2», пожалуйста?
Структура исходного текстового файла выглядит следующим образом:
"CITING","CITED"
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889
Желаемый результат - это Spark DataFrame, который подсчитывает количество каждой цитаты следующим образом:
+--------+------+
|NPatente|ncitas|
+--------+------+
| 3060453| 3 |
| 3390168| 6 |
| 3626542| 18 |
| 3611507| 5 |
| 3000113| 4 |
Жду вашего ответа.
Спасибо!