У меня есть много файлов журнала gzip'd в s3, который имеет 3 типа строк журнала: b, c, i.i и c оба являются одноуровневыми json:
{"this":"that","test":"4"}
Тип b является глубоко вложенным json.Я наткнулся на этот гист , в котором рассказывается о том, как собрать банку, чтобы сделать эту работу.Так как мои навыки владения Java меньше, чем звездные, я действительно не знал, что делать отсюда.
{"this":{"foo":"bar","baz":{"test":"me"},"total":"5"}}
Поскольку типы i и c не всегда находятся в одном и том же порядке, это делает указание всего в генерациирегулярное выражение сложно.Возможна ли обработка JSON (в файле gzip'd) с помощью Pig?Я использую любую версию Pig, созданную на экземпляре Amazon Elastic Map Reduce.
Это сводится к двум вопросам: 1) Могу ли я анализировать JSON с Pig (и если да, то как)?2) Если я могу проанализировать JSON (из файла журнала gzip), могу ли я проанализировать вложенные объекты JSON?