Каков наилучший способ увидеть формат данных в Hadoop HDFS? - PullRequest
0 голосов
/ 05 апреля 2019

Загрузил почти 50 ГБ CSV-файла в кластер Hadoop, и я хочу посмотреть некоторые примеры записей для идентификации столбцов.

Я пытался использовать

hadoop fs -cat employees.csv | head -n 10

Мои вопросы

  1. это правильная команда для просмотра данных?
  2. head -n 10 - он загрузит 50 ГБ данных и отфильтрует первые 10 строк? как это работает?
  3. любой другой лучший подход?

1 Ответ

0 голосов
/ 05 апреля 2019

Это зависит от вашей версии.

Для более старых версий Hadoop (<3.1.0): </p>

hadoop fs -cat employees.csv | head -n 10

Для более новых (> = 3.1.0) версий Hadoop

 hadoop fs -head employees.csv
...