Что можно вывести из двух наборов данных, используя k-means или k-nn - PullRequest
0 голосов
/ 15 мая 2018

Мне интересно, что вы можете сделать вывод, используя извлечение данных из двух больших наборов данных, которые имеют схожие свойства.Скажем, у вас есть два набора данных, содержащих подробную информацию о школах в стране, и каждый набор данных относится к школьному этапу за определенный год.Какие вещи вы можете сделать с этими наборами данных, используя интеллектуальный анализ данных?

Я знаю, как использовать и применять алгоритмы в пандах, но у меня возникают проблемы с получением мотивации, особенно с помощью k-средних.

Я знаю, что вы используете k-средства для помещения немеченых данных в кластеры на основе числа факторов из набора данных и на основе значений свойств каждого элемента данных, они помещаются в один из созданных кластеров.Но тогда что вы делаете с этими кластерами?Как вы можете использовать их для анализа данных?Я читал, что его даже можно использовать для очистки данных или связывания двух наборов данных друг с другом, но мне просто трудно представить, как вы собираетесь делать эти вещи.

Любая помощь хорошаоценили.Спасибо ..

1 Ответ

0 голосов
/ 25 августа 2018

Вы можете сделать много вещей с этими наборами данных, в том числе:

Посмотрите, какие учащиеся из более низкой ступени с большей вероятностью будут в какой группе (успешные, неуспешные и т. Д.), Когда они достигнут более высокой ступенина основе некоторых факторов Посмотрите, какие факторы влияют на успехи учащихся на разных этапах (при условии, что наборы данных содержат эту информацию) Вы можете сделать много разных сравнений на основе различных факторов

.. и многое другое.Проблема в том, что на самом деле невозможно сказать, что можно сделать из ваших наборов данных, не видя, какую информацию они содержат.Я предлагаю вам внимательно посмотреть в двух наборах данных и посмотреть, есть ли у них общие столбцы, и выбрать те, которые вас интересуют больше всего.

...