где хранится набор данных scikit на компьютере? - PullRequest
0 голосов
/ 01 октября 2019

Я запустил следующий код

from sklearn.datasets import fetch_20newsgroups

, и первый раз с сообщением прошло несколько минут:

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)

В следующий раз это было мгновенно, поэтому Pythonочевидно, вытащил набор данных на мой ноутбук. Это как CSV-файл? Где это хранится? И как мне сохранить его в определенную папку, чтобы мне не пришлось загружать его снова, когда говорят, что я перезагружаю свою машину

Ответы [ 2 ]

0 голосов
/ 01 октября 2019

Если не указано, загруженные данные fetch_20newsgroups по умолчанию сохраняются в подпапках '~ / scikit_learn_data'.

data_home: необязательно, по умолчанию: нет

Укажите папку для загрузки и кэширования для наборов данных. Если None, все данные scikit-learn хранятся в подпапках '~ / scikit_learn_data'.

Вы можете изменить их, настроив параметр data_home :

dataset = fetch_20newsgroups(data_home=<Another Directory>)
0 голосов
/ 01 октября 2019

Для существующих наборов данных: согласно данные github repo , похоже, сохраняются рядом с путем к модулю Scikit:

def load_boston(return_X_y=False):
# ...
    module_path = dirname(__file__)

    fdescr_name = join(module_path, 'descr', 'boston_house_prices.rst')
    with open(fdescr_name) as f:
        descr_text = f.read()

    data_file_name = join(module_path, 'data', 'boston_house_prices.csv')

, поэтому ищите: <module>\data\filename

Для извлеченных данных:

см. эту страницу документации scikit , цитата:

sklearn.datasets.fetch_20newsgroups(
    data_home=None, # this is what you're looking for
    subset=’train’,
    categories=None,
    shuffle=True,
    random_state=42,
    remove=(),
    download_if_missing=True)

data_home: необязательно, по умолчанию: нет

Укажите папку для загрузки и кэширования для наборов данных. Если нет, все данные scikit-learn хранятся в подпапках ~/scikit_learn_data.

...