Я использую StanfordNLP для классификации текста. Более или менее тот же сценарий содержится в примере "настроения" ( mood.train ).
Файл моего поезда содержит более 230000 строк / датумов. Он будет генерировать 7644972 объектов и 45869832 параметров (для достижения этого результата необходимо было выделить 18 ГБ для классификатора).
Проблема в том, что мне нужно классифицировать эти данные по 50 классам / меткам. Пытаясь обучить классификатор, я получаю исключение OutOfMemory .
Если я уменьшу количество классов / ярлыков (до 5, следуя совету @StanfordNLPHelp), я смогу обучить классификатор, но он не соответствует моим потребностям.
Какие варианты у меня есть? В настоящее время я использую ColumnDataClassifier. Это адекватно? Можно ли использовать StanfordNLP для выполнения такой задачи?