Определение dtypes во время импорта файла с разделителями табуляции в кадр данных - PullRequest
0 голосов
/ 17 сентября 2018

Поскольку некоторые данные неоднозначны (например, номера клиентов, которые должны интерпретироваться как строки, а не целые числа), я использую опцию dtype (pd.read_table ('BSC.csv', dtype = str).

Работает нормально, поскольку панды больше не жалуются на неоднозначные типы. Тем не менее, когда я сохранял фрейм данных в хранилище HDFS, я получил жалобу, что использование нетипизированных объектов приведет к снижению производительности. Я посмотрел на свой фрейм данных, используя .dtypes, и увидел, что все типы вернулись к «объекту».

Я посмотрел на документ Pandas.read_table, но не нашел ни одной настройки, которая замораживала бы тип в строку после импорта. Означает ли это, что единственный вариант - использовать шаг .apply (to_string) непосредственно перед сохранением кадра данных?

...