Pyspark читает столбец CSV-массива в середине - PullRequest
0 голосов
/ 01 мая 2020

У меня есть CSV, в котором есть столбец, который должен содержать массивы. Итак, когда я читаю этот CSV через pyspark. sql, он дает нулевые значения для всех столбцов после столбца массива. Как я могу это исправить?

CSV: enter image description here

Так что, когда я читаю это обратно, с этим test_file = ss.read.csv('s3://sk1911-mdf-mybucket/big_subset.csv', header=True) и делаю дубль, это дает мне что-то нравится.

|               22050|0.6479336219623286|0.48202282669567886|AR4PQ891187FB5CA9F|       40.76099|East Orange, NJ|       -74.20991|Dionne Warwick|0.7901756112133602|0.09891509433962263|109.34542924528301|0.555841121495327|110.11071338785048|         0.0|222.9024|         0.299|   0.0|   5|         0.762|  -15.28|   1|          0.613|Friends|             0.5946|     96.034035| 0.6345415430267063|   -18.31317210682493|                    (674,)|    -27.020842729970326|       (674, 12)|111.5988821364985|      (674, 12)|         (100,)|0.24906579485370342|SOWTLUT12A8C13BE83|          210.396|0.5210292056074767|110.2390154088785|116.866|             4|                    0.981|Remember Your Heart|1985|['brill building ...|
| 'disco' 'soul ja...|              null|               null|              null|           null|           null|            null|          null|              null|               null|              null|             null|              null|        null|    null|          null|  null|null|          null|    null|null|           null|   null|               null|          null|               null|                 null|                      null|                   null|            null|             null|           null|           null|               null|              null|             null|              null|             null|   null|          null|                     null|               null|null|                null|
| 'chill-out' 'ger...|              null|               null|              null|           null|           null|            null|          null|              null|               null|              null|             null|              null|        null|    null|          null|  null|null|  

Массив просачивается в следующие строки, и pyspark не может читать следующие строки. Пожалуйста, помогите.

Записи выглядят примерно так.

|analysis_sample_rate|artist_familiarity|  artist_hotttnesss|         artist_id|artist_latitude|artist_location|artist_longitude|   artist_name| artist_terms_freq|    bars_confidence|        bars_start| beats_confidence|       beats_start|danceability|duration|end_of_fade_in|energy|key|key_confidence|loudness|mode|mode_confidence|release|sections_confidence|sections_start|segments_confidence|segments_loudness_max|segments_loudness_max_time|segments_loudness_start|segments_pitches|   segments_start|segments_timbre|similar_artists|    song_hotttnesss|           song_id|start_of_fade_out| tatums_confidence|     tatums_start|  tempo|time_signature|time_signature_confidence|              title|year|        artist_terms|
+--------------------+------------------+-------------------+------------------+---------------+---------------+----------------+--------------+------------------+-------------------+------------------+-----------------+------------------+------------+--------+--------------+------+---+--------------+--------+----+---------------+-------+-------------------+--------------+-------------------+---------------------+--------------------------+-----------------------+----------------+-----------------+---------------+---------------+-------------------+------------------+-----------------+------------------+-----------------+-------+--------------+-------------------------+-------------------+----+--------------------+
|               22050|0.6479336219623286|0.48202282669567886|AR4PQ891187FB5CA9F|       40.76099|East Orange, NJ|       -74.20991|Dionne Warwick|0.7901756112133602|0.09891509433962263|109.34542924528301|0.555841121495327|110.11071338785048|         0.0|222.9024|         0.299|   0.0|  5|         0.762|  -15.28|   1|          0.613|Friends|             0.5946|     96.034035| 0.6345415430267063|   -18.31317210682493|                    (674,)|    -27.020842729970326|       (674, 12)|111.5988821364985|      (674, 12)|         (100,)|0.24906579485370342|SOWTLUT12A8C13BE83|          210.396|0.5210292056074767|110.2390154088785|116.866|             4|                    0.981|Remember Your Heart|1985|['brill building ...|
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...