Выбор случайных строк (данных) из файла dataframe / csv в Python после определения начального и конечного номера строки? - PullRequest
0 голосов
/ 19 ноября 2018

Используя функцию sample(), я могу получить случайные строки.Набор данных имеет 1000000 строк данных, и я хочу иметь подмножество 20000 строк.Импортировать случайные строки можно с помощью этого решения

https://stackoverflow.com/a/22259008/8966221

чтение набора данных

dataset = read_csv(file_path)

dataset_sub = dataset.sample (20000, random_state = 1)

Однако я хочу выбрать случайные строки между номерами строк 250000 до 750000.Любое возможное решение в этом отношении?.

Ответы [ 3 ]

0 голосов
/ 19 ноября 2018

Что вы можете сделать, это создать DataFrame, содержащий строки между номерами строк от 250000 до 750000, а затем выбрать из них 20000 случайных строк.

dataset_sub = dataset.loc[250000:750000].sample(20000, random_state=1)
0 голосов
/ 22 ноября 2018

Я думаю, что следующий код работает:

import random
a=random.sample(range(250000,750000), 20000)
data=dataset.loc[a]
0 голосов
/ 19 ноября 2018

Я думаю, вам нужно это:

dataset = read_csv(file_path)
dataset_sub = dataset.sample(random.randint(250000,750000), random_state=1)
...