Question

Есть ли у кого-нибудь удобный код, который извлекает данные из загружаемых текстовых файлов imdb и переносит их в более удобный формат? Текстовые файлы не в формате, пригодном для немедленного использования, и их довольно сложно преобразовать. Например, файл business.list выглядит следующим образом для каждого фильма, своего рода несколько тегов (разные теги и количество каждого тега) для каждого фильма (некоторые с меньшим количеством тегов, некоторые с большим количеством тегов).

Я ищу способ преобразовать эти файлы во фрейм данных.

МВ: Клиринг (2004)

GR: 5 763 875 долл. США (США) (10 октября 2004 года) GR: 5 761 124 долл. США (США) (3 октября 2004 года)

OW: 618 674 долл. США (США) (4 июля 2004 года) (56 экранов)

SD: 23 сентября 2002 г. - ноябрь 2002 г.

РГ: 1 350 долларов США (США) (10 октября 2004 г.) (2 экрана)

Больше информации здесь: http://www.imdb.com/interfaces

В то же время я собираюсь покопаться в некоторых других интерфейсах, таких как текст Unix One.

Richie Cotton · Answer 1 · 10 февраля 2012

Используйте IMDB API и пакеты RCurl и XML для получения структурированных данных с сайта.

Justin · Answer 2 · 10 февраля 2012

Это не R, но imdbpy - библиотека Python, которая делает именно это.

Нужен код для извлечения полезных данных из текстовых файлов IMDB с помощью R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нужен код для извлечения полезных данных из текстовых файлов IMDB с помощью R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов