У меня есть файл с некоторой информацией:
1. Идентификатор фильма (первый символ перед «:»)
2. Идентификатор пользователя
4.Пользовательский рейтинг
3.Дата
Все элементы разделяются знаком ",", но идентификатором фильма, который разделяется двоеточием
, если я создаю кадр данных следующим образом:
df=pd.read_csv('combined_data_1.txt',header = None,names['Movie_ID','User_ID','Rating','Date'])
и распечатайте фрейм данных, я получу это:

Что не правильно, очевидно.
Итак, есливы смотрите на столбец «Movie_ID», в первом ряду есть 1: 1488844.В столбце «Movie_ID» должно быть только число «1» (перед двоеточием), а не «1: 1488844».Остальное (1488844) должно быть в столбце User_ID.
Другая проблема состоит в том, что не каждый столбец «Movie_ID» имеет свой правильный идентификатор, и в этом случае он должен быть «1», пока я не найду другой идентификатор фильма., это снова будет первым числом перед двоеточием.
Я знаю, что идентификаторы всех фильмов следуют последовательности, то есть: 1,2,3,4, ...
Другая проблема, с которой я столкнулся, заключалась в том, что при чтении файла по какой-то причине происходит разделение, когда есть двоеточие, поэтому после первой строки (которая не разделяется), когда появляется двоеточие, строка в«Movie_ID» создан, содержащий только, например: «2:», а не что-то вроде первого ряда.
В конце я хотел бы получить что-то вроде этого:

Но я не знаю, как организовать это.Спасибо за помощь!