Тест перестановки в Писпарке - PullRequest
0 голосов
/ 14 марта 2020

Я пытаюсь провести тест на перестановку в Pyspark, но не могу найти какую-либо реализацию для использования. Очевидно, что этот тест очень сложен для вычислений (мне нужно + - 100K перестановок), и я все еще новичок в pyspark, поэтому попытаться создать его самостоятельно довольно сложно.

Моя проблема: сравнивать выбор алгоритмов ранжирования на основе на их NDCG. Мой набор данных очень большой (1551 запрос и 70M + документов -> 100B + баллов за модель), и у меня есть 51 модель для сравнения. Эти оценки находятся в точном фрейме данных и не могут быть собраны из-за размера.

Пожалуйста, дайте мне знать, если кто-нибудь из вас знает хороший тест, который я могу использовать, или если есть прямой способ реализовать это сам.

...