У меня есть файл для анализа, который содержит много ссылок, и пример того, как он выглядит:
<hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
pls/facebook?funn=wordlis&sys;sys;colorsdif_id=11908675">colors</p></hm>
<hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
pls/facebook?funn=wordlis&sys;sys;colorsdif_id=45103481">yelloW</p></hm>
<td>I have a dream, and it is all good 2</hm>
<hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
pls/facebook?funn=wordlis&sys;sys;colorsdif_id=40984930">orangE</p></hm>
<hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
pls/facebook?funn=wordlis&sys;sys;colorsdif_id=90648361">pinK</p></hm>
Мне нужно только сохранить слова, которые находятся в положении> цветов<поэтому я также хочу> yelloW <,> orangE <и> pinK <. </p>
В этом примере общим выражением между ними будет вся ссылка, кроме числа (идентификатор, что эторазные номера во всех ссылках) и слово.
Сразу после нахождения всех слов я хочу сохранить их в словаре, в котором первый элемент используется как ключевой, а остальные как элементы, поэтому конечный результат будет:
d = {"colors": ["yelloW", "orangE", "pinK"]}