Алгоритм распознавания похожих данных? - PullRequest
1 голос
/ 25 апреля 2020

Мне дали набор данных для трендов YouTube с заданием для создания прогнозирующей модели, которая выводит вероятность попадания видео в тренды с точностью не менее 60%.

У меня есть заголовок, канал, thumbnail_link, просмотры, лайки, антипатии, комментарии, дата, ...

Я провел несколько анализов и go понял, что важными столбцами являются

категория, теги ("|") разделенный список)

Проблема в том, что предполагается, что все видео имеют тенденцию, поэтому я не могу использовать классификатор и подгонять его под тренировочные данные для прогнозирования трендового столбца да / нет или использовать алгоритм регрессии без изменения цели чтобы "предсказать, насколько это будет приятно" или что-то в этом роде.

Похоже, я ищу кластерный алгоритм, я изучил KMeans, но насколько я могу судить, он не будет сделать трюк

Я думаю, что я мог бы сравнить видео по видео, какие категории и теги оно содержит, и оценить его по популярности, или рассчитать расстояние simila функция Rity, но подразумевается, что я должен использовать Scikit

1 Ответ

1 голос
/ 25 апреля 2020

Это звучит как одноклассная классификация проблема. Вот некоторые варианты:

  • соответствует репрезентативному распределению данных, затем для нового наблюдения (видео) проверьте, какова вероятность того, что это распределение произошло

  • соответствует классификатору, который, по существу, найдет границы данных, затем для нового наблюдения скажет вам, как далеко / за пределами границы он находится, например scikit-learn.svm.OneClassSVM

  • подходит для центров кластеров или найдите архетипические примеры, а затем для нового наблюдения укажите, как далеко он находится от центра кластеров, по сравнению со средним наблюдением в данных обучения

Просто некоторые идеи, конечно, есть и другие подходы. :)

...