У меня есть файл stata .dta
.Если я открою его в stata, я смогу увидеть несколько столбцов с метками значений.Я могу перейти к просмотру, щелкнуть по одному из них и увидеть оригинальный код за меткой.
Если я прочитаю этот файл .dta
в python
через pd.read_stata(..., convert_categoricals=True)
, я смогу получить типы данныхчерез df.dtypes
.
Для некоторых столбцов созданы категории.Однако для одного интересного столбца вместо этого была создана серия с dtype Object
, которая содержит метки в виде строки.
- Как именно работает процесс создания категории в pd.read_stata?
- Как получить доступ к исходным кодам данных за метками при чтении с помощью
convert_categorical=True
- Что мне делать в случае, когда столбцы преобразуются в dtype
Object
- нужно ли мне повторно считывать данные в кадре с convert_categoricals=False
и объединять?Это действительно звучит непитонично.