Поскольку некоторые данные неоднозначны (например, номера клиентов, которые должны интерпретироваться как строки, а не целые числа), я использую опцию dtype (pd.read_table ('BSC.csv', dtype = str).
Работает нормально, поскольку панды больше не жалуются на неоднозначные типы.
Тем не менее, когда я сохранял фрейм данных в хранилище HDFS, я получил жалобу, что использование нетипизированных объектов приведет к снижению производительности. Я посмотрел на свой фрейм данных, используя .dtypes, и увидел, что все типы вернулись к «объекту».
Я посмотрел на документ Pandas.read_table, но не нашел ни одной настройки, которая замораживала бы тип в строку после импорта. Означает ли это, что единственный вариант - использовать шаг .apply (to_string) непосредственно перед сохранением кадра данных?