Я пишу небольшой инструмент для извлечения набора значений из строки (обычно это твит).
Строка может состоять из слов и цифр вместе с суммой, начинающейся с символа валюты (£, $, € и т. Д.) И несколько хэштегов (#foo #bar).Я работаю на appEngine и использую tweepy для ввода твитов.
Текущий код, который мне нужно найти, находится ниже:
tagex = re.compile(r'#.*')
curex = re.compile(ur'[£].*')
for x in api.user_timeline(since_id = t.lastimport):
tags = re.findall(tagex, x.text)
amount = re.findall(curex, x.text)[0]
logging.info("Text: " + x.text)
logging.info("Tags: " + str(tags))
logging.info("Amount: " + amount)
, где, например, x.text "Такси Лондон £ 6.50 #projectfoo #clientmeeting "
Tagex находит хэштеги в порядке, но я не могу получить curex для извлечения суммы, которую я получаю в настоящее время: Сумма: £ 6.50 #projectfoo # clientmeeting.
Мне также нужно отделить символ валюты, чтобы получить сумму в виде числа с плавающей запятой, но это будет довольно просто позже.