У меня есть df
с переменной с именем url
. Каждая строка URL в url
имеет уникальный шестизначный буквенно-цифровой идентификатор в строке URL. Я пытался извлечь определенную часть каждой строки, article_id
из всех URL-адресов, а затем добавить ее к df
в качестве новой переменной.
Например, xwpd7w
- это article_id
для https://www.vice.com/en_us/article/xwpd7w/how-a-brooklyn-gang-may-have-gotten-crazy-rich-dealing-for-el-chapo
Как мне извлечь article_ids
из всех URL-адресов в df на основе их позиции рядом с /article/
? Используя какой-либо метод, регулярное выражение или нет?
До сих пор я сделал следующее:
df.url.str.split()
ex output: [https://www.vice.com/en_au/article/j539yy/smo...
df['cutcurls'] = df.url.str.join(sep=' ')
ex output: h t t p s : / / w w w . v i c e . c o m / e n
Есть идеи?