Как создать пакет слов с помощью Weka? - PullRequest
5 голосов
/ 10 октября 2011

У меня есть совокупность документов, и я хочу представить каждый документ как вектор.По сути, вектор будет иметь 1 для слов, которые присутствуют внутри документа, а для других слов (которые присутствуют в других документах в корпусе, а не в этом конкретном документе) он будет иметь 0. Как создать этот вектор для всехдокументы в Weka?

Есть ли быстрый способ сделать это с помощью Weka?Я также хочу, чтобы Weka удалил стоп-слова и, если возможно, некоторую предварительную обработку, прежде чем он создаст этот вектор.

Спасибо Abhishek S

1 Ответ

7 голосов
/ 11 октября 2011

Требуется фильтр StringToWordVector .

Он имеет опции для двоичного вхождения и остановки, среди многих других, таких как остановка, усечение списка слов, отбрасывание редких терминов, свертывание регистра.

...