Нужен код для извлечения полезных данных из текстовых файлов IMDB с помощью R - PullRequest
0 голосов
/ 10 февраля 2012

Есть ли у кого-нибудь удобный код, который извлекает данные из загружаемых текстовых файлов imdb и переносит их в более удобный формат? Текстовые файлы не в формате, пригодном для немедленного использования, и их довольно сложно преобразовать. Например, файл business.list выглядит следующим образом для каждого фильма, своего рода несколько тегов (разные теги и количество каждого тега) для каждого фильма (некоторые с меньшим количеством тегов, некоторые с большим количеством тегов).

Я ищу способ преобразовать эти файлы во фрейм данных.


МВ: Клиринг (2004)

GR: 5 763 875 долл. США (США) (10 октября 2004 года) GR: 5 761 124 долл. США (США) (3 октября 2004 года)

OW: 618 674 долл. США (США) (4 июля 2004 года) (56 экранов)

SD: 23 сентября 2002 г. - ноябрь 2002 г.

РГ: 1 350 долларов США (США) (10 октября 2004 г.) (2 экрана)


Больше информации здесь: http://www.imdb.com/interfaces

В то же время я собираюсь покопаться в некоторых других интерфейсах, таких как текст Unix One.

Ответы [ 2 ]

5 голосов
/ 10 февраля 2012

Используйте IMDB API и пакеты RCurl и XML для получения структурированных данных с сайта.

1 голос
/ 10 февраля 2012

Это не R, но imdbpy - библиотека Python, которая делает именно это.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...