Я учусь в науке о данных, но у меня пока мало опыта работы с кодом.
Моя проблема: как я могу получить список диктов из строки, которая уже находится в форме спискадиктует, но воспринимается пандами как строка?
Вот набор данных (титры): https://www.kaggle.com/tmdb/tmdb-movie-metadata/data
В столбцах «cast» и «crew» у меня есть такие клетки:
[
{"credit_id": "52fe420dc3a36847f800012d", "department": "Directing", "gender": 1, "id": 3110, "job": "Director", "name": "Allison Anders"},
{"credit_id": "52fe420dc3a36847f80001c9", "department": "Writing", "gender": 1, "id": 3110, "job": "Writer", "name": "Allison Anders"}
]
(очевидно, существуют десятки диктов для каждой ячейки)
Моя главная проблема заключается в том, что после того, как я загрузил файл и создал фрейм данных, ячейки этих двух столбцов (актеры и команда) воспринимаются пандами как строки, а не как список диктовок, и поэтому я не могу выполнить нужные мне операции.
creditsB = pd.read_csv('folder\\tmdb_5000_credits.csv')
creditsDF = pd.DataFrame(creditsB)
type(creditsDF.loc[0,'crew'])
# str
И если я попытаюсь применить к нему list (),он просто создает список из отдельных символов.
dct = list(creditsDF.loc[0,'crew'])
dct
# output:
['[',
'{',
'"',
'c',
'r',
'e',
# and so on
Как я могу заставить python понять, что это на самом деле список диктов, и также обработать его?
Мне нужно выполнить некоторые основные операциикак «для каждого фильма, рассчитать количество актеров» или «для каждого фильма, комсуть число директоров ".Это было бы действительно легко, если бы я только что решил эту большую проблему.
Заранее благодарен за любую помощь!