Насколько случайна случайная строка из случайных фрагментов данных? - PullRequest
0 голосов
/ 10 июля 2020

Я пытаюсь создать действительно простой инструмент в Python.

У меня есть список, очень большой список (около 5 ГБ) в формате .csv номеров лотереи.

По какой-то причине я не могу получить Pandas или даже обычные SQL Базы данных, чтобы преобразовать этот список в таблицу, а затем случайным образом выбрать число (пытаясь выбрать случайного победителя)

Поэтому было предложено, чтобы я разбить .csv на куски с помощью кода (пока у меня нет возможности даже открыть список).

Главный вопрос в том, насколько случайный будет происходить, если я это сделаю? Допустим, он разбивает его на 5 частей, а затем я прошу его выбрать случайную строку данных из ЛЮБОГО из этих пяти фрагментов. Действительно ли случайный результат показывает 100% случайную строку данных, или это вызвано необходимостью случайного запуска на обоих уровнях. IE - случайным образом выберите один из этих пяти фрагментов, а затем случайным образом выберите число из них.

Если я сделаю это таким образом, разве это не повлияет на то, насколько он действительно случайный? Или я просто схожу с ума, думая о статистике вокруг этого?

(Дополнительный вопрос, я до сих пор даже не придумал четкого способа разбить CSV на управляемые куски, так что есть какие-нибудь советы было бы круто!)

1 Ответ

3 голосов
/ 10 июля 2020

Следующие два сценария ios эквивалентны:

  1. Выберите карту из колоды наугад
  2. Выберите масть из {треф, червей, пиков, бубен} на случайным образом, а затем выберите карту из этой масти.

Но следующее не эквивалентно:

  1. Выбрать карту случайным образом
  2. Выбрать категорию из {лицевых карт, не лицевых карт} наугад, а затем случайным образом выберите карту из этой категории, так как это приведет к избыточной выборке лицевых карт.

Мораль истории: все будет в порядке при условии, что куски одинакового размера. В противном случае вы получите избыточную выборку для меньших фрагментов.

...