Если все, что вам нужно, это прилагательные частоты, тогда проблема относительно проста, в отличие от какого-то брутального, не очень хорошего решения для машинного обучения.
Что делать?
Сделайте POS-теги для вашего текста. Это аннотирует ваш текст частью речевых тегов, поэтому вы будете иметь точность 95% или более. Вы можете пометить свой текст с помощью Stanford Parser онлайн , чтобы почувствовать его. Парсер на самом деле также дает вам грамматическую структуру, но вы заботитесь только о тегах.
Вы также хотите убедиться, что предложения разбиты правильно. Для этого вам нужен прерыватель предложения. Это включено в программное обеспечение, такое как анализатор Стэнфорда.
Затем просто разбейте предложения, отметьте их и посчитайте все с помощью тега ADJ или любого другого тега, который они используют. Если теги не имеют смысла, найдите набор тегов Penn Treebank (Treebanks используются для обучения инструментам NLP, и теги Penn Treebank являются общими).
Как?
Java или Python - это язык инструментов НЛП. Python, используйте NLTK. Это легко, хорошо документировано и понятно.
Для Java у вас есть GATE, LingPipe и Stanford Parser и другие. Это полная боль в заднице - использовать Stanford Parser, к счастью, я пострадал, поэтому вам не придется, если вы решите пойти по этому пути. Посмотрите мою страницу Google с примерами кода (внизу страницы) с использованием Stanford Parser.
Все ли?
Нет, возможно, вы тоже захотите поставить прилагательные - вот где вы получите корневую форму слова:
авто -> авто
На самом деле я не могу вспомнить ситуацию, когда это необходимо с прилагательными, но это может произойти. Когда вы посмотрите на свои результаты, станет очевидно, что вам нужно это сделать. POS-тэггер / парсер / и т. Д. Даст вам ваши слова (также называемые леммами).
Больше объяснений НЛП
См. этот вопрос .
![enter image description here](https://i.stack.imgur.com/vtV9h.jpg)