StringToWordVector Weka Output - PullRequest
       34

StringToWordVector Weka Output

0 голосов
/ 16 апреля 2019

У меня есть файл arff, содержащий набор текстовых предложений.Я хотел бы получить абсолютную частоту каждого слова в каждом предложении.Я использовал StringToWordVector.

Это начальный файл

@relation dataset @attribute Text string @date 'I'm a movie lover and this is one of the best museums in which ...

После запуска StringToWordVector я получаю экземпляры этого типа:

@relation dataset1 @attribute word numeric ... {13 2, 19 2, 30 2, 33 1, 53 1, 55 4, 60 1, 61 2, 72 3, 78 1, 89 1, 90 1, 99 1, 106 1,120 1,121 1,123 2,124 5,126 2,136 1,140 1,147 5,148 2,160 1,186 1,198 1,202 1,248 9,253 1, ...}

Поскольку я хотел бы отслеживать слово, а не использовать числовой идентификатор, как я могу связать текстовое слово с частотой, полученной после выполнения команды stringtowordvector?

1 Ответ

0 голосов
/ 16 апреля 2019

Этот вопрос также задавался в списке рассылки Weka:

https://list.waikato.ac.nz/pipermail/wekalist/2019-April/047670.html

StringToWordVector выводит данные в разреженном формате , гдепервое значение - это индекс атрибута на основе 0, а второе - фактическое значение:

https://waikato.github.io/weka-wiki/arff_stable/#sparse-arff-files

...