Учитывая следующий кадр данных df
ниже:
from numpy import nan
import pandas as pd
d = {'x': {0: 'MT', 1: 'MT', 2: 'MT', 3: 'MT', 4: 'MT', 3379: 'MT', 3406: 'MT', 4184: 'MT', 4248: 'MT'}, 'Position': {0: 3, 1: 5, 2: 5, 3: 6, 4: 6, 3379: 568, 3406: 573, 4184: 16184, 4248: 16193}, 'Reference': {0: 'T', 1: 'A', 2: 'A', 3: 'C', 4: 'C', 3379: 'C', 3406: 'C', 4184: 'C', 4248: 'C'}, 'Variant': {0: 'C', 1: 'G', 2: 'C', 3: 'T', 4: 'G', 3379: 'C', 3406: 'C', 4184: 'C', 4248: 'C'}, 'Min': {0: nan, 1: nan, 2: nan, 3: nan, 4: nan, 3379: 2.0, 3406: 2.0, 4184: 2.0, 4248: 2.0}, 'Max': {0: nan, 1: nan, 2: nan, 3: nan, 4: nan, 3379: 8.0, 3406: 8.0, 4184: 5.0, 4248: 3.0}}
df = pd.DataFrame(d)
Мы видим, что под столбцами Min
и Max
у меня есть NaN
, а также числа с плавающей точкой.В конечном итоге я пытаюсь повторить буквы в Variant
n раз, тогда как число, на которое будет реплицироваться это письмо, продиктовано значениями в Min
и Max
Везде, где естьa NaN
по Min
или Max
, наблюдения по Variant
должны оставаться неизменными.
Для каждой из строк, в которых есть поплавок по Min
или Max
, я будуповторить строки под ними n раз, где n равно Max
- Min
.
После репликации столбцов я отредактирую наблюдения под Variant
в соответствии со значениями, указанными в Min
и Max
.
Например, учитывая строку индекса 3379, я повторю этот столбец 8 - 2 = 6 раз, так что у меня будет в общей сложности семь одинаковых строк.Теперь я должен «увеличить» или конкатенировать наблюдения под Variant
n раз, с Min
до Max
, чтобы, учитывая эту строку (или индекс 3379), мои репликации выглядели следующим образом:
d1 = {'x':{3379: 'MT', 3380:'MT', 3381:'MT', 3382:'MT', 3383:'MT', 3384:'MT', 3385:'MT'},
'Position':{3379:568, 3380:568, 3381:568, 3382:568, 3383:568, 3384:568, 3385:568},
'Reference':{3379:'C', 3380:'C', 3381:'C', 3382:'C', 3383:'C', 3384:'C', 3385:'C'},
'Variant':{3379:'CC', 3380:'CCC', 3381:'CCCC', 3382:'CCCCC', 3383:'CCCCCC', 3384:'CCCCCCC', 3385:'CCCCCCCC'},
'Min':{3379:2.0, 3380:2.0, 3381:2.0, 3382:2.0, 3383:2.0, 3384:2.0, 3385:2.0},
'Max':{3379:8.0, 3380:8.0, 3381:8.0, 3382:8.0, 3383:8.0, 3384:8.0, 3385:8.0}}
df1 = pd.DataFrame(d1)
Я хотел бы сделать это для всех строк, в которых наблюдения под Min
и Max
не NaNs