Мой фрейм данных выглядит следующим образом:
Domain URL Importance
1 google.com google.com/example/1/file.exe 1
2 microsoft.com microsoft.com/example/1/file.exe 3
3 apple.com apple.com/example/1/file.exe 4
4 google.com google.com/example/2/file.exe 1
5 google.com google.com/example/3/file.exe 2
6 apple.com apple.com/example/2/file.exe 3
... ... ... ...
1000 google.com google.com/example/500/file.exe 2
Все URL-адреса всегда будут уникальными, однако при этом существуют совпадения с доменами. Уровни важности предварительно назначаются для строк в кадре данных, где 1 является наиболее важным, а 4 - самым низким приоритетом.
Я ищу хороший "Pandai c" способ фильтрации данных. так что может быть максимум 50 URL на домен, упорядоченный по уровню наибольшей важности (1> 4). Затем в общей сложности до 750 URL, снова отфильтрованные по уровню важности, прежде чем отрезать дно.