Нужен более быстрый метод добавления частых тестовых биграмм в тренировочный набор - PullRequest
0 голосов
/ 24 сентября 2018

У меня есть большой массив данных pandas (около 10 ГБ), который я хотел бы использовать для обучения.У меня гораздо меньший тестовый фрейм данных.Для повышения производительности (оценка F1) в наших тестовых данных мне было предложено добавить тестовые записи, содержащие частые биграммы, в данные поезда, чтобы данные поезда лучше представляли данные теста и модель могла быть лучше обучена.

Я попытался просмотреть все записи и подсчитать биграммы.Это занимает много времени, но, поскольку мы можем сохранить полученный кадр данных на диск, это нормально.Проблема заключается в следующем шаге, где я должен выбрать одну запись, содержащую каждую частую биграмму.Это должно произойти, чтобы набор поездов не содержал весь набор тестов.

Теперь мне нужно сделать этот случайный выбор несколько раз, чтобы мы могли иметь несколько наборов данных и выбирать те, которые ведутна лучший счет Ф1.Есть ли у вас какие-либо предложения о том, как выполнить этот шаг, чтобы его можно было масштабировать для 17 миллионов записей?Я попытался сформировать один биграмм на строку, отсортировать по биграмме и частоте, а затем удалить дубликаты из группы, чтобы сохранить только один из них.Это слишком медленно, и я дал ему около 10 часов.Можете ли вы предложить более быстрый подход?

...