Я новичок в питоне, а также скреб.Тем не менее, я провожу несколько дней, пытаясь почистить новостные статьи из своего архива - УСПЕШНО.
ПРОБЛЕМА заключается в том, что, когда я чищу СОДЕРЖАНИЕ статьи <p>
, этот контент заполняется дополнительными тегами, такими как - strong
, a
и т. Д. И, таким образом, скрап не вытянет его, и яосталось с новостной статьей, содержащей 2/3 текста.Попробую HTML ниже:
<p> According to <a> Japan's newspapers </a> it happened ... </p>
Теперь я попробовал поискать и поискать форум здесь.Было несколько предложений, но из того, что я попробовал, он не работал или сломал моего паука:
Я прочитал о нормализованном пространстве и удалил тегино это не сработало.Спасибо за любые идеи заранее.