Есть ли у кого-нибудь удобный код, который извлекает данные из загружаемых текстовых файлов imdb и переносит их в более удобный формат? Текстовые файлы не в формате, пригодном для немедленного использования, и их довольно сложно преобразовать. Например, файл business.list выглядит следующим образом для каждого фильма, своего рода несколько тегов (разные теги и количество каждого тега) для каждого фильма (некоторые с меньшим количеством тегов, некоторые с большим количеством тегов).
Я ищу способ преобразовать эти файлы во фрейм данных.
МВ: Клиринг (2004)
GR: 5 763 875 долл. США (США) (10 октября 2004 года)
GR: 5 761 124 долл. США (США) (3 октября 2004 года)
OW: 618 674 долл. США (США) (4 июля 2004 года) (56 экранов)
SD: 23 сентября 2002 г. - ноябрь 2002 г.
РГ: 1 350 долларов США (США) (10 октября 2004 г.) (2 экрана)
Больше информации здесь: http://www.imdb.com/interfaces
В то же время я собираюсь покопаться в некоторых других интерфейсах, таких как текст Unix One.