Я предполагаю, что вы заинтересованы в понимании распределения по вашим категориальным значениям.
Лучший способ создания «новых» данных - это выборка из ваших существующих данных с помощью функции R sample (). Это даст вам значения, которые соответствуют распределению вероятностей, указанному вашими существующими значениями.
Чтобы дать тривиальный пример, давайте предположим, что у вас есть файл данных об избирателях для небольшого города, где значения - это политическая принадлежность избирателей, а число - число избирателей:
affils <- as.factor(c('democrat','republican','independent'))
counts <- c(552,431,27)
## Simulate 20 new voters, sampling from affiliation distribution
new.voters <- sample(affils,20, replace=TRUE,prob=counts)
new.counts <- table(new.voters)
На практике вы, вероятно, внесете свои 100-метровые строки значений и подсчетов, используя функцию read.csv () в R. Предполагая, что у вас есть строка заголовка, помеченная «values \ t count», этот код может выглядеть примерно так:
dat <- read.csv('values-counts.txt',sep="\t",colClasses=c('factor','numeric'))
new.dat <- sample(dat$values,100,replace=TRUE,prob=dat$counts)
Одно предостережение: как вы, возможно, знаете, R хранит все свои объекты в памяти, поэтому убедитесь, что у вас достаточно свободного места для 100-метровых строк данных (хранение символьных строк как факторов поможет уменьшить площадь).