Как выглядит этот Perl XML-фильтр в Python? - PullRequest
1 голос
/ 17 января 2011
curl -u $1:$2 --silent "https://mail.google.com/mail/feed/atom" | perl -ne 'print "\t" if /<name>/; print "$2\n" if /<(title|name)>(.*)<\/\1>/;'

У меня есть этот сценарий оболочки, который получает фид Atom с аргументами командной строки для имени пользователя и пароля.Мне было интересно, возможен ли такой тип вещей в Python, и если да, то как мне поступить?Фид атома - это просто обычный XML.

Ответы [ 2 ]

3 голосов
/ 17 января 2011

Python не так хорошо подходит для компактных лайнеров, как Perl. Это в первую очередь по трем причинам:

  1. С Perl, пробелы незначительны почти во всех случаях. В Python пробелы очень важны.
  2. В Perl есть несколько полезных ярлыков для однострочников, таких как perl -ne или perl -pe, которые помещают неявный цикл вокруг строки кода.
  3. Существует большое тело грузового культа Вкладыши Perl one для выполнения полезных задач.

Тем не менее, этот питон близок к тому, что вы опубликовали в Perl:

curl -u $1:$2 --silent "https://mail.google.com/mail/feed/atom" | python -c ' 
import sys
for s in sys.stdin:
    s=s.strip()
    if not s: print '\t',
    else: print s
' 

Это немного сложно сделать лучше, потому что, как указано в моем комментарии, Perl, который вы разместили, является неполным. У вас есть:

perl -ne 'print "\t" if //; print "$2\n" if /(.*)/;'

Что эквивалентно:

LINE:
while (<>) {
  print "\t" if //;         # print a tab for a blank line
  print "$2\n" if /(.*)/;   # nonsensical. Print second group but only 
                            # a single match group defined...
}

Редактировать

Хотя переписывать этот Perl в Python тривиально, здесь есть кое-что получше:

#!/usr/bin/python
from xml.dom.minidom import parseString
import sys

def get_XML_doc_stdin(f):
    return xml.dom.minidom.parse(f)

def get_tagged_data2(tag, index=0):    
    xmlData = dom.getElementsByTagName(tag)[index].firstChild.data
    return xmlData

data=sys.stdin.read()
dom = parseString(data)

ele2=get_tagged_data2('title')
print ele2

count=int(get_tagged_data2('fullcount'))
print count,"New Messages:"

for i in range(0,count):
    nam=get_tagged_data2('name',i)
    email=get_tagged_data2('email',i)
    print "  {0}: {1} <{2}>".format(i+1,nam,email)

Теперь сохраните это в текстовом файле, запустите на нем chmod +x, затем:

curl -u $1:$2 --silent "https://mail.google.com/mail/feed/atom" | 
/path/pythonfile.py

Это производит это:

Gmail - Inbox for xxxxxxx@gmail.com
2 New Messages:
  1: bob smith <bob@smith.com>
  2: Google Alerts <googlealerts-noreply@google.com>

редактировать 2 И если вам это не нравится, вот строковый фильтр Python 1:

curl -u $1:$2 --silent "https://mail.google.com/mail/feed/atom" |python -c ' 
import sys, re
for t,m in re.findall(r"<(title|name)>(.*)<\/\1>",sys.stdin.read()):
    print "\t",m
'
1 голос
/ 17 января 2011

Вы можете использовать «открыватель URL» из стандартного модуля Python urllib2 с обработчиком для аутентификации. Например:

#!/usr/bin/env python

import getpass
import sys
import urllib2

def main(program, username=None, password=None, url=None):

    # Get input if any argument is missing
    username = username or raw_input('Username: ')
    password = password or getpass.getpass('Password: ')
    url = url or 'https://mail.google.com/mail/feed/atom'

    # Create password manager
    password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
    password_mgr.add_password(None, url, username, password)

    # Create HTTP Authentication handler and URL opener
    authhandler = urllib2.HTTPBasicAuthHandler(password_mgr)
    opener = urllib2.build_opener(authhandler)

    # Fetch URL and print content
    response = opener.open(url)
    print response.read()

if __name__ == '__main__':
    main(*sys.argv)

Если вы также хотите извлечь информацию из канала, вам следует проверить, как анализировать защищенные паролем каналы с feedparser.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...