Я загрузил набор данных в формате .csv из kaggle , что о lego. Вот столбец «Возраст», подобный следующему:
df['Ages'].unique()
array(['6-12', '12+', '7-12', '10+', '5-12', '8-12', '4-7', '4-99', '4+',
'9-12', '16+', '14+', '9-14', '7-14', '8-14', '6+', '2-5', '1½-3',
'1½-5', '9+', '5-8', '10-21', '8+', '6-14', '5+', '10-16', '10-14',
'11-16', '12-16', '9-16', '7+'], dtype=object)
Эти категории - рекомендуемый возраст для использования и игры с легосами. Я собираюсь сделать некоторый статистический анализ с этими возрастными корзинами. Например, я хочу проверить среднее значение этих рекомендуемых возрастов. Однако, поскольку тип каждого из них равен string :
type(lego_dataset.loc[0]['Ages'])
str
Я не знаю, как работать с данными.
Я уже проверил Как классифицировать диапазон значений в Pandas DataFrame Но представьте, что есть 100 уникальных корзин. Нет смысла составлять список из 100 ярлыков для каждой категории. Должен быть лучший способ.