Моя проблема не обычная. Давайте представим несколько миллиардов строк. Строки обычно не более 15 символов. В этом списке мне нужно узнать количество уникальных элементов.
Прежде всего, какой объект я должен использовать? Вы не должны забывать, если я добавляю новый элемент, я должен проверить, существует ли он уже в списке. В начале это не проблема, но после нескольких миллионов слов это действительно может замедлить процесс.
Вот почему я подумал, что Hashtable будет идеальным решением для этой задачи, потому что проверка списка в идеале - только log (1). К сожалению, один объект в .net может быть только 2 ГБ.
Следующим шагом будет реализация пользовательской хеш-таблицы, которая содержит список хеш-таблиц по 2 ГБ.
Мне интересно, может быть, некоторые из вас знают лучшее решение.
(У компьютера очень высокая спецификация.)