с макушки головы:
Подсчитать количество строк в каждом файле данных, записать количество строк.
Скопируйте и поезд, и тестовый файл вместе в один файл, примените фильтр StringToWordVector.
Временно удалите верхнюю ~ 75% той огромной разреженной матрицы, которая получается (точное значение может быть 73,4542% или что-то в этом роде).
Экспортируйте оставшиеся записи, соответствующие нижним 25% преобразованного набора данных (эти строки представляют ваш исходный набор тестов), в свой собственный файл .arff.
Теперь отмените операцию удаления верхних 75%. Инвертировать выбор. Удалите нижние 25%, соответствующие вашему тестовому набору.
Запустите свой классификатор.
Примените модель к тестовому набору, загрузив новый arff-файл, который вы экспортировали выше.