Во-первых, я работаю на машине с Windows XP 64 с 4 Гб оперативной памяти и 2,29 ГГц x4
Я индексирую 220 000 строк текста более или менее одинаковой длины. Они разделены на 15 файлов одинакового размера. Файл 1/15 занимает 1 минуту для индексации. Поскольку скрипт индексирует больше файлов, он занимает гораздо больше времени, а файл 15/15 занимает 40 минут.
Насколько я понимаю, чем больше я помещаю в память, тем быстрее работает скрипт. Словарь индексируется в хэше, поэтому операции выборки должны быть O (1). Я не уверен, где скрипт будет зависать процессор.
У меня есть сценарий здесь .