Организация ночных дампов IMDB в структурированные данные - PullRequest
1 голос
/ 14 февраля 2009

В настоящее время я пытаюсь создать веб-сайт для целей тестирования / обучения, который будет охватывать наборы данных IMDB, которые выгружаются .

У меня проблемы с определением лучшего способа извлечения данных в формат, которым проще управлять. Мне нужно будет извлечь данные из нескольких файлов:

  • movies.list = Список фильмов всех фильмов и год производства
  • mpaa-rating-reason.list = рейтинги MPAA
  • running-times.list = Время выполнения

Данные в этих таблицах связаны уникальным именем, которое присваивается каждой строке. По сути, мне нужно соединить строки каждого из этих текстовых файлов вместе, используя уникальное имя. После этого мне нужно будет проанализировать нужные данные по фактическому уникальному имени, поскольку название фильма явно не указано. Уникальное имя также указывает, является ли запись видеоигрой или телешоу, для которого я не буду собирать данные.

Извлечение данных из этих уникальных квалификаторов имен, скорее всего, станет кошмаром для Regex, но меня больше интересует, каков наилучший способ для фактической группировки текстовых файлов в управляемый формат где-то ... Должен ли я. ..

  1. Извлечь данные в промежуточные таблицы на сервере SQL, а затем написать отдельную часть в моем приложении, чтобы объединить таблицы и собрать все вместе?
  2. Загрузить строки из текстовых файлов в таблицу данных .NET и выполнить мою обработку таким образом?
    1. При этом я собираюсь вызвать кошмар памяти для коробки, на которой запущено это приложение?
  3. Какая-нибудь другая альтернатива?

В примечании, один только файл movies.list содержит более 1 миллиона строк данных.

Заранее спасибо за помощь.

Chris

1 Ответ

1 голос
/ 14 февраля 2009

Постановка таблиц на сервере БД, очистка данных в финальные таблицы.

Если это означает загрузку обратно в клиентское приложение для обработки, пусть будет так.

Практически, сервер БД будет обрабатывать количество данных, но SQL Server может быть не лучшим для вашей обработки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...