Использование PyODB C для создания Apache таблиц Drill - PullRequest
2 голосов
/ 25 января 2020

Я пытаюсь взять локальный фрейм данных и создать его как таблицу партера в Drill с использованием библиотеки PyODB C. Я понимаю, что PyDrill обладает лучшими возможностями, подходящими для этого, но я могу создавать и считывать данные из экземпляра Drill - мне сложно только взять локальные кадры данных и превратить их в таблицу в Drill. Ниже я нахожусь там, где я сейчас нахожусь: я пытаюсь прочитать набор данных радужной оболочки из моего региона и создать его как паркетный стол в Drill.

Интересно, можно ли было бы использовать библиотеку PyArrow и функции write_table и write_to_dataset, чтобы добиться этого?

## import iris dataset as a sample and write it out in Drill
iris_df=pd.read_csv('iris.csv')

## Use existing ODBC connection to connect to Drill instance
import pyodbc
import pyarrow as pa
import pyarrow.parquet as pq

conn = pyodbc.connect("DSN=MaprInstance", uid='rookiejoe',pwd='password',autocommit=True)
cursor = conn.cursor()

## What I'm hoping to do. Create a mapr_iris table using iris_df
cursor.execute('CREATE TABLE dfs.root/temp/mapr_iris as SELECT * FROM iris_df')

## Using PyArrow
write_table(iris_df,'connection string?')

Любая помощь, указатели очень ценятся. Спасибо!

...