Как распределить небольшое количество данных в случайном порядке в гораздо больший объем данных?
Например, у меня есть несколько тысяч строк «реальных» данных, и я хочу вставить дюжину или две строки контрольных данных в случайном порядке во все «реальные» данные.
Теперь я не пытаюсь спросить, как использовать генераторы случайных чисел, я задаю статистический вопрос, я знаю, как генерировать случайные числа, но мой вопрос заключается в том, как мне обеспечить, чтобы эти данные вставлялись в случайном порядке и в то же время довольно равномерно разбросан по файлу.
Если я просто полагаюсь на генерацию случайных чисел, есть вероятность (хотя и очень небольшая), что все мои контрольные данные или, по крайней мере, их скопления, будут вставлены в довольно узкий набор «реальных» данных. Каков наилучший способ предотвратить это?
Чтобы сформулировать это иначе, я хочу вставить управляющие данные в мои реальные данные, не имея возможности для третьей стороны вычислить, какие строки являются управляющими, а какие - реальными.
<ч />
Обновление: я сделал это «вики-сообществом», так что если кто-то захочет отредактировать мой вопрос, чтобы он имел больше смысла, тогда продолжайте.
<ч />
Обновление: позвольте мне попробовать пример (я не хочу делать этот язык или платформу зависимыми, поскольку это не вопрос кодирования, а статистический вопрос).
- У меня есть 3000 строк «реальных» данных (это количество будет меняться от прогона к прогоне в зависимости от объема данных, которые есть у пользователя).
- У меня есть 20 строк «контрольных» данных (опять же, это изменится в зависимости от количества контрольных строк, которые пользователь хочет использовать, начиная с нуля и выше).
Теперь я хочу вставить эти 20 «контрольных» строк примерно после каждых 150 строк или «реальных» данных (3000/20 = 150). Однако я не хочу, чтобы это было настолько точно, как это, поскольку я не хочу, чтобы контрольные строки были идентифицируемыми просто на основе их расположения в выходных данных.
Поэтому я не возражаю против некоторых скомпонованных «контрольных» рядов или о том, что будет некоторых секций с очень небольшим количеством или вообще без «контрольных» рядов, но как правило, я хочу, чтобы «контрольные» строки были равномерно распределены по данным.