Question

У меня есть файл для анализа, который содержит много ссылок, и пример того, как он выглядит:

  <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-     
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=11908675">colors</p></hm>

 <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=45103481">yelloW</p></hm>

  <td>I have a dream, and it is all good 2</hm>

 <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-    
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=40984930">orangE</p></hm>

 <hm><w syst="whatrudoing" please="http://facebook.com.u/qwe-
  pls/facebook?funn=wordlis&sys;sys;colorsdif_id=90648361">pinK</p></hm>

Мне нужно только сохранить слова, которые находятся в положении> цветов<поэтому я также хочу> yelloW <,> orangE <и> pinK <. </p>

В этом примере общим выражением между ними будет вся ссылка, кроме числа (идентификатор, что эторазные номера во всех ссылках) и слово.

Сразу после нахождения всех слов я хочу сохранить их в словаре, в котором первый элемент используется как ключевой, а остальные как элементы, поэтому конечный результат будет:

   d = {"colors": ["yelloW", "orangE", "pinK"]}

Aska · Answer 1 · 27 февраля 2019

Вы можете попробовать что-то вроде этого:

import re
re.findall(r"http://[^>]+>(\w+)",ree)

Где:

[^>] + - получить любые символы, кроме>
\ w + -получить любые буквы
(..) - вернуть группу в скобках

И словари Python не поддерживают идентичные ключи.Вы можете посмотреть на этот вопрос .

Разбор в файле со ссылками Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор в файле со ссылками Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов