Я использую Dumbo для некоторых заданий Hadoop Streaming.У меня есть несколько словарей JSON, каждый из которых содержит статью (многострочный текст) и некоторые метаданные.Я знаю, что Hadoop лучше всего работает с большими файлами, поэтому я хочу объединить все словари JSON в один файл.
Проблема в том, что я не знаю, как заставить Hadoop читать каждый словарь / статьюотдельное значение вместо разделения на новые строки.Как я могу сказать Hadoop использовать пользовательский разделитель записей?Или, может быть, я могу поместить все словари JSON в структуру данных списка и сделать так, чтобы Hadoop считал это?сможет справиться с этим?