Question

Я пытаюсь взять набор обзоров и преобразовать их в формат ARFF для использования с WEKA. К сожалению, либо я полностью неправильно понимаю, как работает формат, либо мне придется иметь атрибут для ВСЕХ возможных слов, а затем индикатор присутствия. Кто-нибудь знает лучший способ, или в идеале есть образец файла ARFF?

zdepablo · Answer 1 · 29 мая 2011

Если вы храните обзоры в текстовых файлах и в разных папках (положительных и отрицательных в вашем случае), вы можете использовать TextDirectoryLoader.

Это можно найти в приложении KnowledgeFlow в Weka или из командной строки.Больше информации здесь: http://weka.wikispaces.com/ARFF+files+from+Text+Collections

Dean Barnes · Answer 2 · 28 мая 2011

Потребовалось время, чтобы потренироваться, но с этим input.arff:

@relation text_files

@attribute review string
@attribute sentiment {0, 1}

@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0

И этой командой:

java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff

Произойдет следующее:

@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'

@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric

@data

{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}

ARFF для обработки естественного языка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

ARFF для обработки естественного языка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы