Разбор в файле со ссылками Python - PullRequest
0 голосов
/ 26 февраля 2019

У меня есть файл для анализа, который содержит много ссылок, и пример того, как он выглядит:

  <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-     
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=11908675">colors</p></hm>

 <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=45103481">yelloW</p></hm>

  <td>I have a dream, and it is all good 2</hm>

 <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-    
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=40984930">orangE</p></hm>

 <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=90648361">pinK</p></hm>

Мне нужно только сохранить слова, которые находятся в положении> цветов<поэтому я также хочу> yelloW <,> orangE <и> pinK <. </p>

В этом примере общим выражением между ними будет вся ссылка, кроме числа (идентификатор, что эторазные номера во всех ссылках) и слово.

Сразу после нахождения всех слов я хочу сохранить их в словаре, в котором первый элемент используется как ключевой, а остальные как элементы, поэтому конечный результат будет:

   d = {"colors": ["yelloW", "orangE", "pinK"]}

1 Ответ

0 голосов
/ 27 февраля 2019

Вы можете попробовать что-то вроде этого:

import re
re.findall(r"http://[^>]+>(\w+)",ree)

Где:

  • [^>] + - получить любые символы, кроме>
  • \ w + -получить любые буквы
  • (..) - вернуть группу в скобках

И словари Python не поддерживают идентичные ключи.Вы можете посмотреть на этот вопрос .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...