Weka: как преобразовать данные испытаний в соответствие с данными поездных данных? - PullRequest
0 голосов
/ 06 марта 2019

Я делаю задачу классификации текста.

Я строю классификатор с данными текста поезда, имеет 1700+ атрибутов (слов).Тем не менее, мои тестовые данные имеют только 500+ атрибутов (слов), когда я запускаю тестовые данные на вышеуказанной модели, выдается исключение Train and test set are not compatible.Как я могу преобразовать атрибуты тестовых данных в соответствие с данными поезда?

1 Ответ

0 голосов
/ 26 марта 2019

с макушки головы:

Подсчитать количество строк в каждом файле данных, записать количество строк.

Скопируйте и поезд, и тестовый файл вместе в один файл, примените фильтр StringToWordVector.

Временно удалите верхнюю ~ 75% той огромной разреженной матрицы, которая получается (точное значение может быть 73,4542% или что-то в этом роде).

Экспортируйте оставшиеся записи, соответствующие нижним 25% преобразованного набора данных (эти строки представляют ваш исходный набор тестов), в свой собственный файл .arff.

Теперь отмените операцию удаления верхних 75%. Инвертировать выбор. Удалите нижние 25%, соответствующие вашему тестовому набору.

Запустите свой классификатор.

Примените модель к тестовому набору, загрузив новый arff-файл, который вы экспортировали выше.

...