Мне нужно проанализировать несколько XML-файлов в TSV, размер файлов XML составляет порядка 50 ГБ, я в основном сомневаюсь в реализации, я должен выбрать, чтобы проанализировать это у меня есть два oprions
- с использованием SAXParser
- использование Hadoop
У меня есть немало идей о реализации SAXParser, но я думаю, что, имея доступ к кластеру Hadoop, я должен использовать Hadoop, так как это - это hadoopдля больших данных
было бы здорово, если бы кто-нибудь дал подсказку / документ о том, как это сделать в Hadoop или эффективной реализации SAXParser для такого большого файла, или, скорее, что я должен использовать для Hadoop или SAXparser?