Я новичок в машинном обучении, в настоящее время делаю проект для школы, и мне было интересно, какой будет наилучшая практика для моего контекста (:
Я работаю с набором данных, который не содержит меток, в нем, похоже, есть кластеры - я провел кластерный анализ с помощью Jupyter Notebook и обнаружил, что, вероятно, есть 3 разных кластера. Я также уже дал им человеческую интерпретацию вместо чисел, сгенерированных с помощью KMeans классификатор. Сложная часть наступает сейчас, так как я в растерянности относительно того, что было бы лучшим вариантом действий для создания реальной модели ML (классификации). Только небольшая часть была использована (2000 из 7000) из набора данных для анализа, как рекомендовал мой учитель (дальнейшая оценка будет проводиться с обучением, тестированием и проверкой модели). Это означает, что остальные данные остаются без метки.
Я уже использовал ML. NET для обучения модели, и с этой платформой я мог бы просто снова использовать KMeans для обучения модели, которая работала довольно хорошо. Я также хочу попробовать другие сервисы / инструменты / фреймворки, чтобы сделать модель с этим набором данных, просто для исследования. Итак, я начал исследовать TensorFlow, и он выглядит очень многообещающе, но я не знаю, как go об этом: 1. Этот урок больше всего похож на то, что я хочу выполнить sh: https://www.tensorflow.org/tutorials/customization/custom_training_walkthrough - однако у них уже есть ярлыки для цветов и они используются для обучения модели et c. Мне было интересно, сможет ли такая модель быть сделана с немаркированными данными? 2. Я также думал о том, чтобы пометить данные с помощью KMeans и использовать их для обучения модели, но я не уверен, что это хорошая практика? 3. Если я выберу go для пункта 2, я должен оставить данные испытаний без меток? Я знаю, что с немаркированными данными сложно проводить обучение и тестирование, поэтому чем больше информации о них, тем лучше (: 4. Как можно также go сделать классификатор в TensorFlow? Я мог бы снова использовать KMeans, но, возможно, есть другие способы - просто интересно.
У меня установлен TensorFlow, и он работает нормально, я также уже следовал учебному пособию по цветам ириса и на самом деле хотел изменить этот пример, чтобы он соответствовал моим потребностям - но так как мои данные не имеют маркировки ... Я использую его через код Visual Studio (:
Заранее спасибо!