Я пытаюсь написать программу на Java или скрипт Hadoop Pig, который будет принимать параметр, разделенный запятыми (например, abc, def, xyz
), и фильтровать файл для записей, содержащих одну или несколько из этих строк.
Е.Г.
Входной файл:
1 abctree
2 pqrwewe
3 rtrxyz45
4 abcxyz
5 234rt23
Входной параметр: abc, def, xyz
Ожидаемый результат:
1 abctree
3 rtrxyz45
4 abcxyz
Я могу написать скрипт, который фильтрует файл по 1 строке, используя matches
, но не знаю, как это сделать для нескольких строк. Нужно ли для этого писать UDF?
Я добавил тег Java к этому вопросу, потому что согласно моим первоначальным выводам мне придется написать UDF, который будет написан на Java. Поэтому, если кто-нибудь знает способ написать это на Java, пожалуйста, опубликуйте свои решения.