У меня есть несколько сотен тысяч строк данных с различными валютными формами, например:
116,319,545 SAR
40,381,846 CNY
57,712,170 CNY
158,073,425 RUB2
0 MYR
0 EUR
USD 110,169,240
Эти значения считываются в DataFrame
, и я не уверен, каков наилучший способ (если есть готовый способ?), Чтобы просто получить целочисленное значение из всех возможных случаев. Вероятно, в данных больше валют.
В настоящее время лучший подход, который у меня есть:
df1['value'].str.replace(r"[a-zA-Z,]",'').astype(int)
Но это очевидно не с записью xxxx RUB2
.
EDIT:
В дополнение к рабочему ответу также разумно ожидать, что валюта будет важной - чтобы извлечь это регулярное выражение ([A-Z]+\d*)