Я предполагаю, что когда вы извлекаете данные из Twitter API, они имеют формат JSON. Используйте ключ, пару значений в качестве заголовка и значения информационного кадра. Теперь для части метки это зависит от того, что вы собираетесь с набором данных. Если вы хотите провести анализ настроений, вам нужно вручную пометить набор данных (или просто загрузить предварительно помеченный набор данных Twitter из Интернета).
Для справки здесь - это отличный учебник о том, как добывать и обрабатывать необработанные данные, получать информацию и применять алгоритмы кластеризации. Надеюсь, это поможет!