Какова лучшая структура данных для хранения слов, найденных в документе, и счетчика с их вхождениями? - PullRequest
1 голос
/ 27 января 2011

Допустим, у меня есть набор документов, которые я хочу прочитать один за другим и сохранить их в структуре данных. Структура, вероятно, будет списком чего-либо. Этот класс будет определять один документ. Внутри этого класса мне придется использовать структуру данных для хранения содержимого каждого документа, что это должно быть? Кроме того, если я хочу посчитать вхождения слов и извлечь наиболее часто встречающиеся слова в каждом документе, мне придется использовать структуру данных, которая позволит мне сделать это за время

1 Ответ

2 голосов
/ 27 января 2011

Используйте ассоциативный массив , также называемый картой или словарем, поскольку разные языки программирования используют разные термины для одной и той же структуры данных.

Каждый ключ ввода будет словом, а счетчик будет значением записи. Например

{
  'on' -> 15,
  'and' -> 43,
  'I' -> 157,
  'confluence' -> 1,
  'dear' -> 2
}
...