Написание пользовательской функции для поднабора данных и сохранения в CSV-файл - PullRequest
0 голосов
/ 09 апреля 2020

В настоящее время я работаю с набором данных, который содержит 140000+ строк, и поэтому я решил упростить свою работу, разбив данные на более мелкие наборы.

import pandas as pd
data_a = pd.read_csv(r'system.csv', encoding = 'cp949')

data_a = pd.DataFrame({'Ccode': [12260, 11133, 11001, 11591, 10000], 'Acode': ['11', '11', '11', '11', '11'], 'Opostc' [135080, 153010, 143200, 157812, 138735], Npostc[6149, 8545, 4992, 7619, 5510], 'Btype':['fast food', 'hotel', 'japanese ramen', 'bookstore', 'ice-cream'}, 
                          columns=['Ccode', 'Acode', 'Opostc', 'Npostc', 'Btype'])

В настоящее время я пытаюсь создать подмножества данных на основе столбца 'Btype'. Моя первоначальная идея заключалась в том, чтобы использовать следующий код для генерации CSV-файлов один за другим.

bookstore = data_a[data_a.Btype == 'bookstore']
bookstore.to_csv('bookstore.csv')

Как уже упоминалось ранее, в наборе данных содержится более 140000+ строк, а в общей сложности 1600+ уникальных строк столбец 'Btype'. Написание строки кода для каждой уникальной строки слишком громоздко и отнимает много времени, поэтому я подумал о написании пользовательской функции и объединении ее в a для l oop для автоматизации процесса. Однако все мои попытки оказались безуспешными.

Есть ли способ определить пользовательскую функцию, которая автоматически делит набор данных на меньшие подмножества на основе уникальных строк в 'Btype'?

...