определение типа объекта в наборе данных: категориальный или пакет слов - PullRequest
0 голосов
/ 14 мая 2018

Я пытаюсь определить тип объекта в наборе данных, который может быть либо категориальным, либо набором слов / чисел.

Однако я не могу найти точного решения для разграничения категориального слова и пакета слов по следующим причинам.

  1. Категориальные данные могут быть объектными или плавающими. Подсчет уникальных значений в объекте не гарантирует точного решения, поскольку разные образцы могут иметь одно и то же значение объекта, которое необязательно может быть категориальным.
  2. Что касается сумки или слов, я подумал о подсчете количества слов, но, опять же, это неправильный способ, так как текст может быть написан одним словом или может отсутствовать.

Какой может быть лучший способ определить тип функций?

1 Ответ

0 голосов
/ 14 мая 2018

Ну, вы запутались между этими двумя терминами:

Категориальный Данные - это вид данных, которые могут быть распределены по категориям между различными категориями, особенно более чем двумя классами или мультиклассами. Поиск по 20 группе новостей группы новостей.

Принимая во внимание, Мешок слов - это техника хранения функций. Идентификация функций осуществляется на основе того, какой результат требуется. Существуют методы извлечения таких функций, как TF-IDF Vectorizer из sklearn, Word2Vec , Doc2Vec и т. Д. Но идентификация функций основана исключительно на наборе данных, который вы используете и приложение, для которого оно используется. Всегда помните, что если вы преобразуете текстовые данные в числовую форму или что-то еще, имена столбцов - это ваши объекты или измерения, а строки - это ваши образцы, экземпляры или записи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...