Загрузка набора данных для взрослых из файла в базу данных - PullRequest
0 голосов
/ 20 мая 2019

Я создал несколько базовых агрегатов и хотел бы их протестировать.Я хотел бы поработать с набором данных для взрослых, импортированным из https://archive.ics.uci.edu/ml/datasets/adult по этой ссылке.Я создал таблицу, которая может содержать данные, но я не могу загрузить ее (файл тест для взрослых ).Есть ли способ сделать это?

Я открыл файл в notepad ++, вставил кавычки в значения строкового типа, но есть строки по 39 КБ.Я не могу напечатать 39K раз INSERT INTO .

Любая помощь?

1 Ответ

2 голосов
/ 20 мая 2019

В Notepad ++ с открытым файлом используйте regex replace для создания оператора. Имейте в виду, что на намного быстрее сделать один INSERT, чем создавать новый оператор INSERT для каждой из 32k + строк.

Вкл. adult.data, используя первые 5 строк в качестве примера:

39, State-gov, 77516, Bachelors, 13, Never-married, Adm-clerical, Not-in-family, White, Male, 2174, 0, 40, United-States, <=50K
50, Self-emp-not-inc, 83311, Bachelors, 13, Married-civ-spouse, Exec-managerial, Husband, White, Male, 0, 0, 13, United-States, <=50K
38, Private, 215646, HS-grad, 9, Divorced, Handlers-cleaners, Not-in-family, White, Male, 0, 0, 40, United-States, <=50K
53, Private, 234721, 11th, 7, Married-civ-spouse, Handlers-cleaners, Husband, Black, Male, 0, 0, 40, United-States, <=50K
28, Private, 338409, Bachelors, 13, Married-civ-spouse, Prof-specialty, Wife, Black, Female, 0, 0, 40, Cuba, <=50K

Заменить -> Режим поиска: регулярное выражение

Найти что: ^([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+), ([^,]+)$

Заменить на: \($1, '$2', $3, '$4', $5, '$6', '$7', '$8', '$9', '$10', $11, $12, $13, '$14', '$15'\),

Хит Replace All

(39, 'State-gov', 77516, 'Bachelors', 13, 'Never-married', 'Adm-clerical', 'Not-in-family', 'White', 'Male', 2174, 0, 40, 'United-States', '<=50K'),
(50, 'Self-emp-not-inc', 83311, 'Bachelors', 13, 'Married-civ-spouse', 'Exec-managerial', 'Husband', 'White', 'Male', 0, 0, 13, 'United-States', '<=50K'),
(38, 'Private', 215646, 'HS-grad', 9, 'Divorced', 'Handlers-cleaners', 'Not-in-family', 'White', 'Male', 0, 0, 40, 'United-States', '<=50K'),
(53, 'Private', 234721, '11th', 7, 'Married-civ-spouse', 'Handlers-cleaners', 'Husband', 'Black', 'Male', 0, 0, 40, 'United-States', '<=50K'),
(28, 'Private', 338409, 'Bachelors', 13, 'Married-civ-spouse', 'Prof-specialty', 'Wife', 'Black', 'Female', 0, 0, 40, 'Cuba', '<=50K'),

Теперь просто вставьте INSERT INTO your_table (columns...) VALUES вверху файла, удалите все запятые в нижней части файла, и вы отсортированы.

...