Это может быть любой язык высокого уровня, который, вероятно, будет доступен в типичной Unix-подобной системе (Python, Perl, awk, стандартные утилиты unix {sort, uniq} и т. Д.) Надеюсь, это достаточно быстро, чтобы сообщить общее количество уникальных терминов для текстового файла размером 2 МБ.
Мне это нужно только для быстрой проверки работоспособности, поэтому его не нужно тщательно проектировать.
Помните, без учета регистра.
Большое спасибо, ребята.
Примечание: если вы используете Python, не используйте код версии 3. Система, на которой я работаю, имеет только 2.4.4.