предположений, файлы структурированы по одному слову в каждой строке, слова уникальны в каждом файле, файлы могут быть отсортированы (или уже в отсортированном порядке)
$ comm -13 file1 file2
333
444
555
-1 suppress lines unique to file1
-3 suppress lines that appear in both files
, что даст вам уникальные слова в файле2, которые не находятся в file1 (то есть установленная разница file2 \ file1)
Это должен быть самый быстрый подход. Пожалуйста, опубликуйте время, если вы можете протестировать альтернативные решения.
В качестве альтернативы,
$ awk 'NR==FNR{a[$0]; next} !($0 in a)' file1 file2
должен работать, пока у вас достаточно памяти. Это не требует сортировки.