Я хочу сгенерировать некоторые тестовые данные базы данных, в частности столбцы таблицы, содержащие имена людей. Чтобы получить хорошее представление о том, насколько хорошо работает индексация в отношении поиска по имени, я хочу максимально приблизиться к реальным именам и их истинному частотному распределению, например. множество разных имен с частотами, распределенными по некоторому степенному закону распределения.
В идеале я ищу свободно доступный файл данных с именами, за которыми следует одно значение частоты (или, что эквивалентно, вероятность) для каждого имени.
Имена, основанные на англосаксонском языке, были бы хороши, хотя имена из других культур также были бы полезны.