Как насчет простого удаления "
с помощью REPLACE ?
Например:
data =
LOAD 'data.txt' AS (num:CHARARRAY);
numbers =
FOREACH data
GENERATE
(INT) REPLACE(num, '\\"', '');
Тогда вы можете GROUP
и SUM
.
Одним из преимуществ является то, что вы можете привести возвращенную строку непосредственно к числу (не нужно разбираться с сумками). REGEX_EXTRACT можно использовать и для того же.