Я пытаюсь разобрать часть входного текста из файла, который первоначально был получен из API Twitter.Файл представляет собой простой текст, и в данном случае я не собираю JSON.Это фрагмент входного текста:
.....HootSuite</a>", "text": "For independent news reports on the crisis in #Japan,
see @DemocracyNow News Archive: http://ow.ly/4ht9Q
#nuclear #Fukushima #rdran #japon", "created_at": "Sat Mar 19.....
В основном мне нужно взять это:
"text": "For independent news reports "on" the crisis in #Japan, see @DemocracyNow
News Archive: http://ow.ly/4ht9Q #nuclear #Fukushima #rdran #japon"
Вот два, которые я пытался заставить работать, но у меня есть некоторыепроблемы с ними:
re.findall('"text":[^_]*',line)
re.findall('"text":[^:}]+',line)
Первый позволит мне собрать все до "созданного", следуя желаемому разделу.Второй тоже неплохо работает, но когда текст включает «:», он не идет до конца информации
У кого-нибудь есть опыт работы с RegEx, который может указать мне правильное направление?