Пересечение двух больших списков слов - PullRequest
1 голос
/ 23 января 2011

У меня есть два списка слов (180k и 260k), и я хотел бы создать третий файл, который представляет собой набор слов, которые появляются в обоих списках.

Каков наилучший (самый эффективный) способ сделать это? Я читал форумы, в которых говорилось об использовании grep , однако я думаю, что списки слов слишком велики для этого метода.

Ответы [ 5 ]

4 голосов
/ 23 января 2011

Если два файла отсортированы (или вы можете отсортировать их), вы можете использовать comm -1 -2 file1 file2, чтобы распечатать пересечение.

3 голосов
/ 23 января 2011

Вы правы, grep был бы плохой идеей. Введите " man join " и следуйте инструкциям.

Если ваши файлы представляют собой просто списки слов в одном столбце или, по крайней мере, если важное слово является первым в каждой строке, то все, что вам нужно сделать, это:

$ sort -b -o f1 file1
$ sort -b -o f2 file2
$ join f1 f2

В противном случае вам может потребоваться дать команде join (1) некоторые дополнительные инструкции:

JOIN(1)                   BSD General Commands Manual                  JOIN(1)

NAME
     join -- relational database operator

SYNOPSIS
     join [-a file_number | -v file_number] [-e string] [-o list] [-t char] [-1 field] [-2 field] file1 file2

DESCRIPTION
     The join utility performs an ``equality join'' on the specified files and writes the result to the standard output.  The ``join field'' is the field in each file by which the files are compared.  The
     first field in each line is used by default.  There is one line in the output for each pair of lines in file1 and file2 which have identical join fields.  Each output line consists of the join field,
     the remaining fields from file1 and then the remaining fields from file2.
     . . .
     . . .
2 голосов
/ 23 января 2011

Предполагая одно слово в строке, я бы использовал grep:

grep -xFf seta setb  
  • -x соответствует целым строкам (без частичных совпадений)
  • -F интерпретирует данные шаблоны буквально (без регулярных выражений)
  • -f seta указывает шаблоны для поиска
  • setb - это файл для поиска содержимого seta

comm сделает то же самое, но требует предварительной сортировки ваших наборов:

comm -12 <(sort seta) <(sort setb)
1 голос
/ 23 января 2011

grep -P '[ A-Za-z0-9]*' file1 | xargs -0 -I {} grep {} file2 > file3

Я полагаю, что это что-то ищет в file1, затем проверяет, находится ли файл file1 в file2, и помещает все, что совпадает в file3.

0 голосов
/ 25 ноября 2013

В те времена мне удалось найти Perl-скрипт, который выполняет нечто подобное:

http://www.perlmonks.org/?node_id=160735

...