Использование StanfordNLP для классификации текста с использованием множества меток и больших наборов данных - PullRequest
0 голосов
/ 26 октября 2018

Я использую StanfordNLP для классификации текста. Более или менее тот же сценарий содержится в примере "настроения" ( mood.train ).

Файл моего поезда содержит более 230000 строк / датумов. Он будет генерировать 7644972 объектов и 45869832 параметров (для достижения этого результата необходимо было выделить 18 ГБ для классификатора).

Проблема в том, что мне нужно классифицировать эти данные по 50 классам / меткам. Пытаясь обучить классификатор, я получаю исключение OutOfMemory .

Если я уменьшу количество классов / ярлыков (до 5, следуя совету @StanfordNLPHelp), я смогу обучить классификатор, но он не соответствует моим потребностям.

Какие варианты у меня есть? В настоящее время я использую ColumnDataClassifier. Это адекватно? Можно ли использовать StanfordNLP для выполнения такой задачи?

...