Я пытаюсь разделить один столбец DataFrame панд на несколько строк.
ДАННЫЕ: Входной кадр данных будет выглядеть ниже:
sports_name,player_name,player_country,player_average
football,XYZ,US,"[['1', '62.58'], ['2', '25.34'],['3', '88.35'],['4', '59.39']]"
football,ABC,US,"[['1', '56.61'], ['2', '52.63'],['3', 'NA'],['4', '44.32'],['5', '39.69']]"
cricket,PQR,IND,"[['1', '98.73'], ['2', '72.62'],['3', '71.53'],['4', '73.72']]"
cricket,LMN,IND,"[['1', '72.52'], ['2', '71.82'],['3', '-'],['4', '62.72'],['5', '73.83']]"
ДАННЫЕ:
- Столбец, который нам нужно разделить на несколько строк: player_average .
- Этот столбец "Player_average" содержит строковое значение, представляющее собой список из нескольких списков.
- Список всегда будет содержать два значения. Первый - "player_match", а второй - "player_average".
- Значение player_average может содержать «NA» или «-» или что-то еще.
Требования:
- "imum_average "- одно целочисленное значение.
- Я хочу, чтобы среднее значение каждого матча игрока было больше, чем "minumum_average".
Вывод: Выходной фрейм данных должен выглядеть ниже
sports_name,player_name,player_country,player_match,player_average
football,XYZ,US,1,62.58
football,XYZ,US,3,88.35
football,XYZ,US,4,59.39
football,ABC,US,1,56.61
football,ABC,US,2,52.63
cricket,PQR,IND,1,98.73
cricket,PQR,IND,2,72.62
cricket,PQR,IND,3,71.53
cricket,PQR,IND,4,73.72
cricket,LMN,IND,1,72.52
cricket,LMN,IND,2,71.82
cricket,LMN,IND,4,62.72
cricket,LMN,IND,5,73.82
РЕДАКТИРОВАТЬ:
Убедитесь, что данные очень большие. Может содержать ~ 20 000 массивов в player_average и ~ 10 000 000 строк.