Создать образец данных из. набор данных, распределение вероятностей которого близко соответствует PD столбца другого набора данных - PullRequest
0 голосов
/ 10 сентября 2018

У меня есть одна таблица с ID и возрастом. Пусть это будет таблица 1. Строки в таблице 1 1000. У меня есть таблица 2 с 10000 строк. Мне нужно выбрать 1000 строк из таблицы 2 так, чтобы table2.age имел такое же распределение вероятностей, что и table1.age. Есть ли способ сделать это в Python? Я не знаю с чего начать. Другими и более точными словами, давайте оценим распределение вероятности, которое наилучшим образом соответствует выборке 1000 из таблицы 1, а затем построим выборку из другой таблицы, которая даст наиболее близкое соответствие исходной оценке распределения вероятности.

...