Мне дали набор данных для трендов YouTube с заданием для создания прогнозирующей модели, которая выводит вероятность попадания видео в тренды с точностью не менее 60%.
У меня есть заголовок, канал, thumbnail_link, просмотры, лайки, антипатии, комментарии, дата, ...
Я провел несколько анализов и go понял, что важными столбцами являются
категория, теги ("|") разделенный список)
Проблема в том, что предполагается, что все видео имеют тенденцию, поэтому я не могу использовать классификатор и подгонять его под тренировочные данные для прогнозирования трендового столбца да / нет или использовать алгоритм регрессии без изменения цели чтобы "предсказать, насколько это будет приятно" или что-то в этом роде.
Похоже, я ищу кластерный алгоритм, я изучил KMeans, но насколько я могу судить, он не будет сделать трюк
Я думаю, что я мог бы сравнить видео по видео, какие категории и теги оно содержит, и оценить его по популярности, или рассчитать расстояние simila функция Rity, но подразумевается, что я должен использовать Scikit