Doc2Vec - это разумный способ преобразования текста переменной длины в итоговый вектор, и эти векторы часто полезны для классификации, особенно тематической классификации или классификации настроений (два приложения выделены в оригинальной статье «Вектор абзаца»).
Тем не менее, 700 документов чрезвычайно малы для обучения.В опубликованных работах использовались корпуса от десятков тысяч до миллионов документов.
Кроме того, ваша конкретная цель классификации - прогнозирование судебного решения - поражает меня гораздо сильнее, чем тематическая классификация или классификация настроений.Знание того, как будет решаться дело, зависит от большого количества внешних законов / прецедентов (которых нет в обучающем наборе) и логических выводов, иногда от индивидуальных тонкостей ситуации.Это те вещи, которые нечеткое обобщение однотекстового вектора вряд ли уловит.
С другой стороны, ваша заявленная точность 74% звучит просто впечатляюще.(Неплохо ли поступил бы и непрофессионал, используя только эти резюме?) Интересно, есть ли в резюме определенные «рассказы» - когда выбор слов в суммирующем указателе сильно намекает или прямо раскрывает фактическое суждение?Если это самый сильный сигнал в тексте (за исключением фактического знания предметной области и логических рассуждений), вы можете получить столь же хорошие результаты из более простого представления и классификатора n-грамм / пакета слов.
Мета-оптимизация ваших параметров обучения может постепенно улучшать результаты, но я думаю, вам понадобится гораздо больше данных и, возможно, гораздо более продвинутые методы обучения, чтобы действительно приблизиться к виду юридически компетентного человека.предсказания уровня, к которым вы, возможно, стремитесь.