быстрое пересечение, дополнение и объединение текстовых файлов с разделителями табуляции? - PullRequest
0 голосов
/ 05 декабря 2011

Может ли кто-нибудь порекомендовать быструю утилиту на основе Unix (в идеале написанную на C) для получения эффективного потокового пересечения / объединения текстовых файлов с разделителями табуляции?Например, разрешите запросы, такие как «дать мне все записи в файле A, которые имеют значение K столбца, которое не отображается ни в одном столбце K файла B».

например, если файл A:

bob sally sue
bob mary john

и файл B:

john sally sue
foo bar quux

, тогда дополнение файла A относительно столбца B в столбце 2 вернет "bob mary john", поскольку это единственный файл в файле B, которыйимеет значение в столбце 2, которое отсутствует в файле B.

Я бы предпочел не использовать базу данных, но хотел бы использовать утилиту на основе командной строки.Является ли awk ответ или есть что-то более простое?спасибо.

1 Ответ

0 голосов
/ 05 декабря 2011

Если бы это был только этот конкретный запрос, я бы, вероятно, использовал awk, 2. столбцы хэша B и фильтр A на основе хэша.

...