У меня есть набор больших текстовых файлов, которые в общей сложности содержат около 3 миллионов строк.
Что я хочу сделать, это вытащить значение из данного столбца из каждой строки и добавить его в массив в памяти. Если значение уже существует в массиве, игнорируйте его.
Я предполагаю, что самый быстрый путь - это НЕ:
- Считать значение
- если существует (используя собственный индекс массива или метод what-have-you), затем отправить его в массив
Должен ли я вставлять значение в алфавитном порядке для ускорения поиска / поиска?
ИЛИ мне хранить несколько массивов ... например, по одному на каждую букву алфавита?