Сборка Impala зависит от Hive, HBase и Sentry или нет? - PullRequest
1 голос
/ 26 марта 2019

У меня есть кластер Hadoop, с одним ведущим и 3 подчиненными.Теперь я хочу добавить функциональность Apache Impala в этот кластер.Я скачал архив с здесь .Я хочу построить Импалу, но не уверен, каковы предпосылки.Существует два разных источника:

  1. Это из документов, в котором говорится, что требования: MySQL (или PostgreSQL), метасторное хранилище Hive и зависимости Java (очевидно).
  2. Файл README.md в каталоге apache-impala, созданный после распаковки tar-шара.Цитируя это:

    Impala может быть собран из предварительно собранных компонентов, загруженных из S3, или может быть собран с помощью цепочки инструментов на месте, расположенной в каталоге третьей стороны (не рекомендуется).Компоненты, необходимые для сборки Impala: Apache Hadoop, Hive, HBase и Sentry .

Я запутался в отношении обоих источников.Что я должен делать?Четкий набор зависимостей для Apache Impala был бы великолепен!

1 Ответ

1 голос
/ 26 марта 2019

Если вы внимательно прочитаете Требования Impala , вы увидите, что поддержка Hadoop подразумевается, а требование Sentry скрыто в ссылке Impala Security в нижней части страницы.

В разделе Зависимости Java написано:

Все Java-зависимости упакованы в файл impala-dependencies.jar, который находится в / usr / lib / impala / lib /. Они отображаются на все, что построено в fe / target / dependency.

Глядя на соответствующий pom.xml , вы увидите все зависимости. Grepping artifactId показывает следующее:

$ grep artifactId fe/pom.xml 
    <artifactId>impala-parent</artifactId>
  <artifactId>impala-frontend</artifactId>
      <artifactId>json-smart</artifactId>
      <artifactId>impala-data-source-api</artifactId>
      <artifactId>hadoop-hdfs</artifactId>
      <artifactId>hadoop-common</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>hadoop-auth</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>hadoop-aws</artifactId>
      <artifactId>hadoop-azure-datalake</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>sentry-core-common</artifactId>
      <artifactId>yarn-extras</artifactId>
      <artifactId>sentry-core-model-db</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>sentry-provider-common</artifactId>
      <artifactId>sentry-provider-db</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>sentry-provider-file</artifactId>
      <artifactId>sentry-provider-cache</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>sentry-policy-common</artifactId>
      <artifactId>sentry-binding-hive</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>sentry-policy-engine</artifactId>
      <artifactId>sentry-service-api</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>parquet-hadoop-bundle</artifactId>
      <artifactId>hbase-client</artifactId>
           <artifactId>json-smart</artifactId>
      <artifactId>hbase-common</artifactId>
           <artifactId>json-smart</artifactId>
      <artifactId>hbase-protocol</artifactId>
      <artifactId>commons-lang</artifactId>
      <artifactId>java-cup</artifactId>
      <artifactId>libthrift</artifactId>
      <artifactId>hive-service</artifactId>
          <artifactId>hive-llap-server</artifactId>
          <artifactId>json-smart</artifactId>
      <artifactId>hive-serde</artifactId>

Таким образом, README.md является правильным, заявив, что вам нужны Hadoop, Hive, HBase и Sentry для создания Impala.

...