Как обрабатывать атрибуты со списками в качестве записей в моделях прогнозирования / регрессии? - PullRequest
0 голосов
/ 30 сентября 2019

Я работаю над моделью прогнозирования для музыкальной индустрии. Для этого у меня есть база данных, заполненная данными о множестве песен. Например, имя, продюсер или артисты. Моя проблема в том, что есть много данных со списками в качестве записей. Например, есть много песен с более чем одним исполнителем.

Я мог бы разделить эти записи, чтобы у меня было несколько столбцов для художников, но я не уверен, как обрабатывать все пустые строки. Когда в одной песне перечислено 5 исполнителей, но в большинстве песен только одна, у большинства будет четыре пустых столбца.

Это лучший способ справиться с этим? Я думал об ограничении всех песен только одним артистом, но имена артистов отсортированы в алфавитном порядке, поэтому я рискую удалить мега-звезду из песни, что, вероятно, сделает мой прогноз недействительным.

Так чтолучший способ обрабатывать пустые строки из-за точки данных, которая может иметь записи 1: n?

1 Ответ

0 голосов
/ 18 октября 2019

Представлять данные в виде графика, а не в виде одной таблицы.

При любом подходящем подходе необходимо разрешить соединения n: m, поэтому вы можете использовать несколько таблиц (без использования везде одинакового уникального ключа,очевидно, или просто в виде графика. Т.е.

| Song 1 | Artist 1 |
| Song 1 | Artist 2 |
| Song 2 | Artist 3 |

И т. д. - очень классическая таблица ссылок в базах данных SQL с двумя внешними ключами.

...