Я совершенно новичок в аналитике данных, и мне было интересно, есть ли у кого-нибудь какие-либо предложения о том, как начать?
Вот проблема, которую я пытаюсь решить. У меня есть база данных mysql, которая получает от 20 строк в день до нескольких миллионов добавленных строк в день (в зависимости от источника данных), и я хочу проанализировать ее на предмет связей. В основном это возможности комбинаций данных (красный = 2, синий = 5, черный = 5 и т. Д.), И я хочу, чтобы инструмент анализировал их изо дня в день, чтобы увидеть, какие из них наиболее вероятны (например, если я поставлю ограничения, такие как всего 5% от общей стоимости может измениться или могут быть выбраны только 5 цветов)
Я думаю, что это будет сложно, но я новичок и полностью готов учиться. Что бы вы предложили мне для решения проблемы, подобной приведенной выше (и связанной с ней проблемы анализа)? Я ищу инструмент (с открытым исходным кодом, пожалуйста ... я плохой студент), предложение книги, документацию и т. Д. Я хочу хорошую основу, и это не производство (это среда обучения, которую я настраиваю так что я могу поэкспериментировать).
Я изучаю Python и Java, и собирался использовать эти инструменты для аналитики, но один из моих друзей предложил использовать инструмент, разработанный для него, или использовать проверенный / проверенный метод для этого.