Не могли бы вы подсказать, как лучше всего обращаться с файлами, содержащими записи JSON и Hadoop?
Есть хорошая статья на эту тему из книги Hadoop на практике:
В библиотеке Twitter elephant-bird есть класс JsonStringToMap, который можно использовать с Pig.
Попробуйте это
Вы также можете использовать JAQL .Это самый простой способ иметь дело с JSON в Map Reduce.Плохо то, что вам придется изучать JAQL (если вы его еще не знаете) !!
MongoDB - хороший вариант, когда вы имеете дело с JSON.MongoDB и Hadoop представляют собой мощную комбинацию и могут использоваться вместе для предоставления сложной аналитики и обработки данных, хранящихся в MongoDB.http://www.mongodb.org/