Я пытался собрать информацию со страниц HTML, которые были ранее сохранены.
Я работал с BeautifulSoup и Selenium, пытаясь автоматизировать это. Сейчас я пытаюсь работать с файлами HTML на моем компьютере, пытаясь извлечь данные из форума.
from lxml import html
from lxml import etree
root = etree.parse(r'C:\...\testFile.html')
tree = html.fromstring(root)
comment = tree.xpath('//*[@id="region-main"]/div/div[3]/div[1]/div[2]/div[2]/div/div/p/text()')
print (comment)
Я ожидал получить данные из комментариев на форуме в виде текста, чтобы потом я мог сохранить их как текст.
Вот пример комментария, который я удаляю любые личные данные
<div class="indent"><a id="p170083"></a><div class="forumpost clearfix" role="region" aria-label="Re: JS por JSOR"><div class="row header clearfix"><div class="left picture"><a href="http://SiteExemplo/user/view.php?id=40297&course=38000"><img src="http://SiteExemplo/theme/image.php/adaptable/core/1560540164/u/f1" alt="Imagem de JSOR" title="Imagem de JSOR" class="userpicture defaultuserpic" width="100" height="100" /></a></div><div class="topic"><div class="subject" role="heading" aria-level="2">Re:JS </div><div class="author" role="heading" aria-level="2">por <a href="http://SiteExemplo/user/view.php?id=40297&course=38000">JSOR</a> - terça, 16 abr 2019, 20:54</div></div></div><div class="row maincontent clearfix"><div class="left"><div class="grouppictures"> </div></div><div class="no-overflow"><div class="content"><div class="posting fullpost"><p>THIS IS THE TEXT, I WAS TRYING TO RETRIEVE.</p><div class="attachedimages"></div></div></div></div></div><div class="row side"><div class="left"> </div><div class="options clearfix"><div class="commands"><a href="http://siteExample/mod/forum/discuss.php?d=42778#p170083">Link direto</a> | <a href="http://SiteExemplo/mod/forum/discuss.php?d=42778#p98677">Mostrar principal</a> | <a href="http://SiteExemplo/mod/forum/post.php?edit=170083">Editar</a> | <a href="http://SiteExemplo/mod/forum/post.php?delete=170083">Excluir</a> | <a href="http://SiteExemplo/mod/forum/post.php?reply=170083#mformforum">Responder</a></div></div></div></div>