У меня есть Dataframe с URL-адресами. У меня есть черный список слов для фильтрации этих URL-адресов. Нет, я хочу фильтровать эти URL-адреса до третьего появления /
. Так, например:
http://example.com/abc/def/
Здесь я хотел бы фильтровать только до третьего появления /
.
Итак, просто: http://example.com/
Я прочитал несколько похожих вопросов и думаю, мне нужно объединить два регулярных выражения.
/.*?/(.*?)/
это должно сработать для фильтрации до третьего появления /
для фильтрации списка слов я использую это выражение:
mask = df["url"].str.contains(r'\b(?:{})\b'.format('|'.join(blacklist)))
df_new = df[~mask]
Теперь я не знаю, как совместить эти два выражения. Я новичок в Python и особенно в регулярных выражениях, поэтому может быть более разумный способ выполнить эту задачу.
Спасибо.
EDIT: черный список выглядит так: ["ebay","shop","camping","car"]
Df вот так:
url text
http://example.com/abc/def/ fdogjdfgfd
http://abcde.com/yzt/egd/ oijfgfdgdf
http://ebay.com/buy/something fgfgeg