Regex, работающий с персонажами кандзи в Python - PullRequest
0 голосов
/ 07 февраля 2020

поэтому для этого проекта по утилизации веб-страниц, над которым я работаю, я пытался отделить некоторые результаты от результатов. в основном, если заголовок содержит ん さ れ れ ペ ー ー ジ が 見 つ り ま ん ん, я хочу скопировать URL-адрес и записать его в один файл fail.csv. Что-нибудь еще, я хочу скопировать URL-адрес и записать его в sucess.csv

html = 'www.abc.com'
url = BeautifulSoup(html,'html.parser').title.string
pattern = re.compile(r' 指定されたページが見つかりません')
if pattern.finditer(url):
with open('fail.csv','w') as f:
cw=csv.writer
cw.writerow([url])
else:
move on, run some other codes and write to sucess.csv

Однако, похоже, что регулярное выражение не распознает я что-то делаю не так или здесь что-то не так?

Спасибо

1 Ответ

0 голосов
/ 17 февраля 2020

Попробуйте

sudo pip3 install requests
sudo pip3 install beautifulsoup4
sudo pip3 install re

и ниже python3

import requests
import re
from bs4 import BeautifulSoup

r = requests.get('https://corp.rakuten.co.jp/careers/life/')
r.encoding='utf-8'
pattern = re.compile(r' 指定されたページが見つかりません')
url = BeautifulSoup(r.text,'html.parser').title.string
pattern.findall(url)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...