Excel не является базой данных, поэтому его нельзя запрашивать напрямую из среды Hadoop, пока ваш файл не будет находиться в HDFS (в идеале в отдельном формате, таком как Parquet), или вместо этого вы конвертируете его в подходящую базу данных.
Вариант 1) Экспорт Excel в CSV, затем загрузка в Hadoop и переход оттуда
Вариант 2) Использование библиотек Apache POI (Java) или Pandas (Python) Excel и интеграция с Hive onваш собственный, предполагая, что вы подразумеваете здесь «Hadoop».
Вариант 3) Использование Spark-Excel
Примечание если у вас есть что-то более 100 ГБ (большое случайное число) студенческих данных, то вам лучше использовать MySQL или Postgres вместо