Как классифицировать текстовые документы в правовой сфере - PullRequest
0 голосов
/ 01 октября 2018

Я работал над проектом, который примерно классифицирует текстовые документы в юридической области (класс проблем с прогнозированием по правовому решению) .
Данный набор данных состоит изиз 700 юридических документов (хорошо сбалансированы в двух классах).После предварительной обработки, которая заключается в применении всех лучших практик (таких как удаление стоп-слов и т. Д.), Для каждого документа есть 3 абзаца, которые я мог бы рассмотреть все вместе или по отдельности.В среднем размер текстовых документов составляет 2285 слов.

Я стремлюсь использовать что-то отличное от классической модели n-грамм (которая не учитывает порядок слов или семантику):

  • Использование нейронной сети ( Doc2Vec ) для преобразования текста каждого документа в вектор в непрерывной области;чтобы создать набор данных с векторами, представляющими документы и соответствующие метки (как я уже сказал, есть 2 возможных метки: 0 или 1);
  • Обучение SVM для классификации образцов, я имеюЯ использовал 10-кратную перекрестную проверку.

Мне было интересно, есть ли кто-то, кто имеет некоторый опыт в этой конкретной области, кто может предложить мне другие способы или как улучшить модель, так как яне дает особенно хороших результатов: точность 74%.

Правильно ли использовать Doc2Vec для преобразования текста в векторы и использовать их для подачи классификатора?

Репрезентация моей модели:

enter image description here

1 Ответ

0 голосов
/ 05 октября 2018

Doc2Vec - это разумный способ преобразования текста переменной длины в итоговый вектор, и эти векторы часто полезны для классификации, особенно тематической классификации или классификации настроений (два приложения выделены в оригинальной статье «Вектор абзаца»).

Тем не менее, 700 документов чрезвычайно малы для обучения.В опубликованных работах использовались корпуса от десятков тысяч до миллионов документов.

Кроме того, ваша конкретная цель классификации - прогнозирование судебного решения - поражает меня гораздо сильнее, чем тематическая классификация или классификация настроений.Знание того, как будет решаться дело, зависит от большого количества внешних законов / прецедентов (которых нет в обучающем наборе) и логических выводов, иногда от индивидуальных тонкостей ситуации.Это те вещи, которые нечеткое обобщение однотекстового вектора вряд ли уловит.

С другой стороны, ваша заявленная точность 74% звучит просто впечатляюще.(Неплохо ли поступил бы и непрофессионал, используя только эти резюме?) Интересно, есть ли в резюме определенные «рассказы» - когда выбор слов в суммирующем указателе сильно намекает или прямо раскрывает фактическое суждение?Если это самый сильный сигнал в тексте (за исключением фактического знания предметной области и логических рассуждений), вы можете получить столь же хорошие результаты из более простого представления и классификатора n-грамм / пакета слов.

Мета-оптимизация ваших параметров обучения может постепенно улучшать результаты, но я думаю, вам понадобится гораздо больше данных и, возможно, гораздо более продвинутые методы обучения, чтобы действительно приблизиться к виду юридически компетентного человека.предсказания уровня, к которым вы, возможно, стремитесь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...