При чтении файла .dat имена столбцов Pandas не совпадают - PullRequest
0 голосов
/ 11 декабря 2018

Я просматриваю Python для анализа данных Уэса МакКинни, второе издание, и во второй главе у него есть несколько примеров, основанных на слиянии трех .dat файлов с обзорами фильмов.

Я могу получить два из трех данныхфайлы для работы (пользователи и отзывы), но третий (названия фильмов) Я не могу приступить к работе и не могу понять, что делать.

Вот код:

mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('movies.dat',  sep = '::', header = None, engine = 'python', names = mnames)

print(movies[:5])

А вот как выглядит вывод / проблема.Кажется, что файл не выравнивает разделитель правильно, и я попытался воссоздать файл и сравнить с двумя другими файлами, которые работают, но они выглядят точно так же.enter image description here

Вот пример данных, взятых из здесь :

1::Toy Story (1995)::Animation|Children's|Comedy
2::Jumanji (1995)::Adventure|Children's|Fantasy
3::Grumpier Old Men (1995)::Comedy|Romance
4::Waiting to Exhale (1995)::Comedy|Drama
5::Father of the Bride Part II (1995)::Comedy
6::Heat (1995)::Action|Crime|Thriller
7::Sabrina (1995)::Comedy|Romance
8::Tom and Huck (1995)::Adventure|Children's
9::Sudden Death (1995)::Action
10::GoldenEye (1995)::Action|Adventure|Thriller
11::American President, The (1995)::Comedy|Drama|Romance
12::Dracula: Dead and Loving It (1995)::Comedy|Horror
13::Balto (1995)::Animation|Children's
14::Nixon (1995)::Drama

Я хотел бы иметь возможность правильно прочитать этот файлтак что я могу присоединить его к двум другим файлам примеров и продолжить изучение Панд:)

1 Ответ

0 голосов
/ 11 декабря 2018

попробуйте добавить encoding='UTF-16' к pd.read_table()

(Извините, репутации недостаточно для добавления комментария.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...