Например, вы можете использовать библиотеку HadoopOffice (https://github.com/ZuInnoTe/hadoopoffice/wiki).
. Там у вас есть следующие опции:
1) использовать Hive напрямую для чтения файлов Excel и CTAS в таблицув формате CSV Вам нужно будет развернуть HadoopOffice Excel Serde https://github.com/ZuInnoTe/hadoopoffice/wiki/Hive-Serde, затем вам нужно создать таблицу (см. документацию по всем вариантам, пример читает из sheet1 и пропускает первые 3 строки)
create external table ExcelTable(<INSERTHEREYOURCOLUMNSPECIFICATION>) ROW FORMAT SERDE 'org.zuinnote.hadoop.excel.hive.serde.ExcelSerde' STORED AS INPUTFORMAT 'org.zuinnote.hadoop.office.format.mapred.ExcelFileInputFormat' OUTPUTFORMAT 'org.zuinnote.hadoop.excel.hive.outputformat.HiveExcelRowFileOutputFormat' LOCATION '/user/office/files' TBLPROPERTIES("hadoopoffice.read.simple.decimalFormat"="US","hadoopoffice.read.sheet.skiplines.num"="3", "hadoopoffice.read.sheet.skiplines.allsheets"="true", "hadoopoffice.read.sheets"="Sheet1","hadoopoffice.read.locale.bcp47"="US","hadoopoffice.write.locale.bcp47"="US");
Затем введите CTAS в таблицу формата CSV:
create table CSVTable ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' AS Select * from ExcelTable;
2) используйте Spark. В зависимости от версии Spark у вас есть разные варианты: для Spark1.x вы можете использовать файловый формат HadoopOffice, а для Spark 2.x - Spark2 DataSource (последний также будет включать поддержку Python).Смотрите howtos здесь