Как обучать и тестировать данные для классификации с использованием алгоритмов машинного обучения - PullRequest
0 голосов
/ 12 июня 2019

Я собрал твиты из Twitter API.Твиты не помечены, и я понятия не имею, с чего начать?Все учебники уже помечены данными.Как маркировать данные?Можно ли делать маркировку только вручную?Любой хороший учебник, отвечающий на мои вопросы, будет очень полезен.

1 Ответ

0 голосов
/ 12 июня 2019

Я предполагаю, что когда вы извлекаете данные из Twitter API, они имеют формат JSON. Используйте ключ, пару значений в качестве заголовка и значения информационного кадра. Теперь для части метки это зависит от того, что вы собираетесь с набором данных. Если вы хотите провести анализ настроений, вам нужно вручную пометить набор данных (или просто загрузить предварительно помеченный набор данных Twitter из Интернета).

Для справки здесь - это отличный учебник о том, как добывать и обрабатывать необработанные данные, получать информацию и применять алгоритмы кластеризации. Надеюсь, это поможет!

...