Функция enWiki dump python - PullRequest
       23

Функция enWiki dump python

0 голосов
/ 05 февраля 2020

Я хочу создать функцию, которая просматривает статью xml и затем

для каждой статьи:

, если она содержит ключевые слова, мораль или этику c (поиск по шаблону):

переместить его в другую папку

else:

игнорировать

Я попробовал несколько вещей и посмотрел вокруг, но на самом деле изо всех сил (даже не уверен, что вы можете выполнять поиск по шаблону), так как я только начал использовать Python, любая помощь будет принята с благодарностью.

Вот пример кода xml ниже ...

<page>
<title>Anarchism</title>
<ns>0</ns>
<id>12</id>
<revision>
  <id>932020697</id>
  <parentid>932020422</parentid>
  <timestamp>2019-12-22T22:28:39Z</timestamp>
  <contributor>
    <username>El C</username>
    <id>92203</id>
  </contributor>
  <minor />
  <comment>Reverted edits by [[Special:Contribs/98.181.248.149|98.181.248.149]] ([[User talk:98.181.248.149|talk]]) to last version by InternetArchiveBot</comment>
  <model>wikitext</model>
  <format>text/x-wiki</format>
  <text xml:space="preserve">
#whole text from article#
</text>
      <sha1>3cwj5oszq9qyabe0sy3sts0tnhysbvm</sha1>
    </revision>
  </page>
#next article#
  <page>
...