Этот бит perl может печатать дубликаты, только если ваши исходные данные имеют повторяющиеся строки. Вы можете удалить их с помощью чего-то вроде
sort -u bigfile.csv | perl -ne 'print if (rand() < .01)' > sample.csv
sort
довольно хорошо сортирует большие файлы, не занимая всю вашу память. Вы также можете удалить дубликаты после выбора линий случайных образцов с аналогичным
perl -ne 'print if (rand() < .01)' bigfile.csv | sort -u > sample.csv