Обычно используют хеш-таблицу, чтобы отслеживать количество каждого слова.Поскольку вам нужно только ответить, дублированы ли слова, вы можете уменьшить количество слов до битовой маски, чтобы хранить только один бит для каждого хеш-индекса.
Если вопрос связан с большими данными,например, как написать поисковую систему для Google, ваш ответ, возможно, должен относиться к MapReduce или аналогичным распределенным методам (которые в некоторой степени внедряются в тех же методах хэш-таблиц, как описано выше)