Похоже, что поддерживается в Hadoop
( ссылка ), но я не знаю, как это использовать.
Я хочу:
a.) Map - Read a huge XML file and load the relevant data and pass on to reduce
b.) Reduce - write two .sql files for different tables
Почему я выбираю карту / уменьшить, потому что я должен сделать это для более чем 100k(may be many more)
XML-файлов, находящихся на диске. любые лучшие предложения приветствуются
Любые ресурсы / учебные пособия, объясняющие, как использовать это, приветствуются.
Я использую Python
и хотел бы узнать, как этого добиться, используя streaming
Спасибо