Pandas установка ограничения на повторяющиеся результаты - PullRequest
0 голосов
/ 24 февраля 2020

Мой фрейм данных выглядит следующим образом:

       Domain         URL                               Importance
1      google.com     google.com/example/1/file.exe     1
2      microsoft.com  microsoft.com/example/1/file.exe  3
3      apple.com      apple.com/example/1/file.exe      4
4      google.com     google.com/example/2/file.exe     1
5      google.com     google.com/example/3/file.exe     2
6      apple.com      apple.com/example/2/file.exe      3
...    ...            ...                               ...
1000   google.com     google.com/example/500/file.exe   2

Все URL-адреса всегда будут уникальными, однако при этом существуют совпадения с доменами. Уровни важности предварительно назначаются для строк в кадре данных, где 1 является наиболее важным, а 4 - самым низким приоритетом.

Я ищу хороший "Pandai c" способ фильтрации данных. так что может быть максимум 50 URL на домен, упорядоченный по уровню наибольшей важности (1> 4). Затем в общей сложности до 750 URL, снова отфильтрованные по уровню важности, прежде чем отрезать дно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...