Дамп панд DataFrame в операторы SQL - PullRequest
0 голосов
/ 18 декабря 2018

Мне нужно преобразовать объект DataFrame pandas в серию операторов SQL, которые воспроизводят объект.

Например, предположим, у меня есть объект DataFrame:

>>> df = pd.DataFrame({'manufacturer': ['Audi', 'Volkswagen', 'BMW'], 
                       'model': ['A3', 'Touareg', 'X5']})
>>> df
  manufacturer    model
0         Audi       A3
1   Volkswagen  Touareg
2          BMW       X5

Мне нужно преобразоватьэто к следующему представлению SQL (не совсем то же самое):

CREATE TABLE "Auto" (
"index" INTEGER,
  "manufacturer" TEXT,
  "model" TEXT
);
INSERT INTO Auto (manufacturer, model) VALUES ('Audi', 'A3'), ('Volkswagen', 'Touareg'), ('BMW', 'X5');

К счастью, объект DataFrame pandas имеет метод to_sql (), который позволяет выгрузить весь DataFrame в базу данных через механизм SQLAlchemy.Я решил использовать базу данных SQLite в памяти для этого:

>>> from sqlalchemy import create_engine
>>> engine = create_engine('sqlite://', echo=False)  # Turning echo to True just logs SQL statements, I'd avoid parsing this logs
>>> df.to_sql(name='Auto', con=engine)

Я застрял в этот момент.Я не могу выгрузить базу данных SQLite в памяти в операторы SQL, либо я не могу найти драйвер sqlalchemy, который выдает операторы SQL в файл вместо их выполнения.

Есть ли способ вывести все запросы, отправленные наДвижок SQLAlchemy как операторы SQL для файла?

Мое не изящное решение до сих пор:

>>> from sqlalchemy import MetaData
>>> meta = MetaData()
>>> meta.reflect(bind=engine)
>>> print(pd.io.sql.get_schema(df, name='Auto') + ';')
CREATE TABLE "Auto" (
"manufacturer" TEXT,
  "model" TEXT
);
>>> print('INSERT INTO Auto ({}) VALUES\n{};'.format(', '.join([repr(c) for c in df.columns]), ',\n'.join([str(row[1:]) for row in engine.execute(meta.tables['Auto'].select())])))
INSERT INTO Auto ('manufacturer', 'model') VALUES
('Audi', 'A3'),
('Volkswagen', 'Touareg'),
('BMW', 'X5');

Я бы предпочел решение, которое не требует построения операторов SQL вручную.

1 Ответ

0 голосов
/ 18 декабря 2018

SQLite фактически позволяет вывести всю базу данных в ряд операторов SQL с помощью команды dump .Эта функциональность также доступна в интерфейсе Python DB-API для SQLite: sqlite3, в частности, через метод iterdump () объекта соединения .Насколько я знаю, SQLAlchemy не предоставляет эту функциональность.

Таким образом, чтобы выгрузить pandas DataFrame в серию операторов SQL, нужно сначала вывести его в базу данных SQLite в памяти, а затем вывести эту базу данных, используяМетод iterdump ():

from sqlalchemy import create_engine    

engine = create_engine('sqlite://', echo=False)
df.reset_index().to_sql(name=table_name, con=engine)  # reset_index() is needed to preserve index column in dumped data

with engine.connect() as conn:
    for line in conn.connection.iterdump():
        stream.write(line)
        stream.write('\n')

engine().connect().connection позволяет получить необработанное соединение DBAPI .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...