Каков наилучший способ хранения данных, когда один столбец имеет значения, которые повторяются в диапазоне от 1 300 до + раз? - PullRequest
0 голосов
/ 22 января 2019

Я использовал поиск в Интернете, чтобы получить около 10000 фильмов и URL-адреса всех связанных с ними страниц обзора, и следующий шаг для меня - это собрать каждый из этих обзоров, чтобы я мог получить положительные / отрицательные отзывы в целом, используя настроения анализ.

Я пишу все это на Python и использую библиотеку Pandas в качестве средства предварительной обработки и структурирования всех данных. У меня уже есть около 36 000 строк, содержащих название фильма в одном столбце и URL-адреса в другом, причем название фильма повторяется снова и снова, а среднее количество просмотров на страницу равно 20, и я смотрю примерно 720 000 строк когда все сказано и сделано.

Это для окончательного проекта курса колледжа, который я беру, и на протяжении всего моего обучения я опасался избыточности данных в базах данных. В конечном итоге я буду записывать все это в базу данных PostgreSQL, чтобы пользователи могли запрашивать любой фильм, чтобы получить прогноз, и мне трудно не заметить тот факт, что названия этих фильмов повторяются так часто.

Мне было интересно, есть ли лучший способ сделать это (который также, надеюсь, сэкономит мне немного времени на обработку), любая помощь будет принята с благодарностью!

Мне кажется, что это скорее прямой вопрос, чем проблема кода, но при необходимости я могу предоставить любой соответствующий код.

1 Ответ

0 голосов
/ 22 января 2019

Если вся информация о каждом фильме у вас есть, избыточности нет (в реляционном смысле), поскольку это уникальный идентификатор.

Вы могли бы сэкономить некоторое пространство, имея отдельную таблицу movieон содержит искусственный числовой идентификатор, имя и ссылку на идентификатор из основной таблицы, но это сделает ваши запросы более сложными и кажется ненужным для такой маленькой таблицы.

Что меня больше беспокоит, так этоявляется ли название фильма хорошим идентификатором вообще: что, если два фильма имеют одинаковое имя?В этот век римейков это не редкость.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...