как читать из таблицы в сумерках python - PullRequest
0 голосов
/ 10 апреля 2020

Раньше у меня был этот код для создания фрейма данных

conn = pyodbc.connect('Driver={SQL Server};'
                      'Server=DELL;'
                      'Database=DB;'
                      'Trusted_Connection=yes;')

df_features = pd.read_sql("SELECT ID, filename, code, frequency from Features" , conn)

features_df = df_features.pivot(index='filename', columns='code', values='frequency')

У меня проблема с сводкой, так как набор данных слишком большой 140 миллионов и около 50 000 столбцов после сводки

люди предложили использовать dask library

, поэтому я построил этот код

import dask.dataframe as dd

conn = pyodbc.connect('Driver={SQL Server};'
                      'Server=DELL;'
                      'Database=DB;'
                      'Trusted_Connection=yes;')

df_features = dd.read_sql_table(table="Features" , index_col="ID")

, но это не работает, нет упоминания о соединении в функции read_sql_table.!

как я могу построить фрейм данных, используя dask?

1 Ответ

1 голос
/ 12 апреля 2020

Функция dask.dataframe.read_sql_table принимает ключевое слово engine_kwargs и ключевое слово kwargs, которые могут оказаться полезными для вас. Я скопирую их здесь из строки документации для удобства:

engine_kwargs : dict or None
    Specific db engine parameters for sqlalchemy
kwargs : dict
    Additional parameters to pass to `pd.read_sql()`

https://docs.dask.org/en/latest/dataframe-api.html#dask .dataframe.read_sql_table

...