Я работаю с большим набором данных (более 2 миллионов строк × 10 столбцов), в котором есть столбец цен. Значения форматируются, включая разделитель тысяч точек (например, 1.000), а также используются точки для разделения десятичных знаков (например, 3.000.75 вместо 3000,75).
Я хочу отформатировать столбец как float, но эти 2 точки в значении вызывают у меня головную боль.
Как правило, и если предположить, что для простоты не существует числа свыше 1.000.000, я бы сделайте что-то вроде этого
for i in range (0,len(df)):
cell=str(df.iloc[i]['price'])
if cell.count(".")==2:
cell=cell.split(".")[0] + cell.split(".")[1] + '.' + cell.split(".")[2]
И тогда да, отформатируйте столбец как float.
Но я знаю, что это далеко не оптимально (for
l oop).
Как я могу использовать силу pandas, чтобы избежать for
здесь?
Спасибо!