Кто-нибудь нашел решение для плохого вывода типа данных Pandas? - PullRequest
0 голосов
/ 06 июля 2019

Я попробовал Pandas для POC (проект для проверки концепции), потому что я думал, что будет легче принять больше моих товарищей по команде (обычно я использую Scala Spark для своего ETL).Панды видоизменили около половины моих типов данных (например, добавив совершенно ненужные десятичные числа к целым числам и другие бессмысленные изменения, такие как слишком много дополнительных десятичных знаков в числах с плавающей запятой, что вызывает все виды проблем в нисходящем направлении, когда я включил их в конвейер POC. Например, «1»становится «1.0» без причины, это фактически превращает целое число в число с плавающей точкой (это мутация! не хорошо ...). На очень узком наборе данных это может быть хорошо, но на широком наборе данных это становится серьезной проблемой, когда яМне постоянно приходится приводить так много типов столбцов, каждый раз, когда я читаю в CSV-файле. Я спорю, стоит ли мне пропустить даже исследование Pandas и просто перейти прямо к Spark, или есть простое решение для этого (яЯ никогда не сталкивался с подобными проблемами с искрой. Мне также интересно, может ли Коала решить эту проблему (поскольку это Pandas на Spark и, возможно, он будет использовать вывод данных Spark вместо вывода данных Pandas).

1 Ответ

2 голосов
/ 06 июля 2019

Проблема, с которой вы столкнулись, вероятно, связана с наличием NaN, изменяющим целочисленные столбцы для плавающих (см. this ).Некоторый прогресс продолжается, но все еще экспериментальный.

...