Похоже, что до того, как вы узнаете что-либо о классах, которые вы собираетесь пометить, простая однородная случайная выборка подойдет почти так же, как любая стратифицированная выборка - потому что вы заранее не знаете, на какую стратификацию делиться.
После маркировки этого первого образца и построения первого классификатора вы можете приступить к так называемому активному обучению: составьте прогнозы для набора данных без метки и выберите несколько твитов, в которых ваш классификатор наименее уместен. Пометьте их, переобучите классификатор и повторите.
Используя этот подход, мне удалось создать хороший обучающий набор после нескольких (~ 5) итераций, с ~ 100 текстами в каждой итерации.