Как извлечь текст с помощью re.findall? - PullRequest
0 голосов
/ 05 февраля 2020

Я хочу

  • Извлечь название страны из HTML файла
  • Я сделал текстовый файл из HTML источника

Что я пробовал

import re

f = open('/Users/User/Programming/plotly.csv/country_name.txt')
data1 = f.read()
print(re.findall('data_country\=(\".+\")', data1))
print(re.findall('a(.*)b', 'axyzb'))

TXT файл выглядит так: enter image description here

Но код просто дает мне такой результат:

enter image description here

I думаю, что это проблема с регулярным выражением.

Ответы [ 2 ]

0 голосов
/ 06 февраля 2020

print(re.findall('data-country\=(\".+?\")', data1)) было именно то, что мне нужно.

print(re.findall('data-country\=(\".+\")', data1)) дал мне слишком длинные тексты, которые я не искал.

Я не буду делать снимок экрана в следующий раз. Вместо этого я скопирую и напишу коды. Спасибо, что сообщили мне.

0 голосов
/ 05 февраля 2020

Попробуйте

print(re.findall('data-country\=(\".+\")', strTmp))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...