Я просматриваю Python для анализа данных Уэса МакКинни, второе издание, и во второй главе у него есть несколько примеров, основанных на слиянии трех .dat
файлов с обзорами фильмов.
Я могу получить два из трех данныхфайлы для работы (пользователи и отзывы), но третий (названия фильмов) Я не могу приступить к работе и не могу понять, что делать.
Вот код:
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('movies.dat', sep = '::', header = None, engine = 'python', names = mnames)
print(movies[:5])
А вот как выглядит вывод / проблема.Кажется, что файл не выравнивает разделитель правильно, и я попытался воссоздать файл и сравнить с двумя другими файлами, которые работают, но они выглядят точно так же.
Вот пример данных, взятых из здесь :
1::Toy Story (1995)::Animation|Children's|Comedy
2::Jumanji (1995)::Adventure|Children's|Fantasy
3::Grumpier Old Men (1995)::Comedy|Romance
4::Waiting to Exhale (1995)::Comedy|Drama
5::Father of the Bride Part II (1995)::Comedy
6::Heat (1995)::Action|Crime|Thriller
7::Sabrina (1995)::Comedy|Romance
8::Tom and Huck (1995)::Adventure|Children's
9::Sudden Death (1995)::Action
10::GoldenEye (1995)::Action|Adventure|Thriller
11::American President, The (1995)::Comedy|Drama|Romance
12::Dracula: Dead and Loving It (1995)::Comedy|Horror
13::Balto (1995)::Animation|Children's
14::Nixon (1995)::Drama
Я хотел бы иметь возможность правильно прочитать этот файлтак что я могу присоединить его к двум другим файлам примеров и продолжить изучение Панд:)