Question

Я пытаюсь реализовать векторизацию текстового файла ... Я создал словарь (уникальные слова во всех документах) ... Какой лучший способ реализовать это в Java?

Например - В моем словаре есть следующие слова - {w1, w2, w3, w4} И у меня есть 2 документа, каждый из которых имеет подмножество слов в словаре. Мне нужно записать в текстовый файл матрицу в виде -

1,3,4,0
0,0,2,1

Здесь каждая строка представляет документ, а значения представляют вхождение каждого слова в документ.

Можете ли вы предложить мне наиболее эффективный способ реализовать это на Java?

jzworkman · Answer 1 · 21 марта 2012

Прочитать в текстовом файле по одному слову за раз
Проверьте, есть ли слово в словаре, увеличьте ли оно количество
Перебрать словарь, выводящий счетчик в выходной файл.

Из-за тега домашней работы я даю вам шаги, а не какой-либо конкретный код (вы можете найти, как сделать все это с помощью быстрого поиска в Google, если вы не знаете, как)

wks · Answer 2 · 21 марта 2012

Попробуйте использовать HashMap, чтобы сопоставить каждое слово с позицией этого слова в векторе. Затем каждая строка может быть построена путем создания int [] для вектора, итерации по всем словам, поиска позиции каждого слова на карте и увеличения соответствующего элемента.

HashMap<String, Integer> dict = new ... // Map word to position
for (String[] doc: docs) {
    int vector[VECTOR_SIZE] = new ....
    for (String word: doc) {
         vector[dict.get(word)]++;
    }
    // Print vector
}

векторизация текстового файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

векторизация текстового файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы