Можно ли добавить None или любое значение, когда информация не существует, используя findall - regex - PullRequest
0 голосов
/ 18 февраля 2019

Я хочу разобрать текст и сохранить его в датафрейме.Иногда информации не существует, как во второй руке, где нет информации о месте 1, и я хочу добавить None или любое значение в словарь.

PokerStars Hand # 163417399919: Hold'em No Limit (€ 1 / €2 EUR) - 2016/12/23 23:48:52 CET [2016/12/23 17:48:52 ET]

Стол 'Dnoces II' 6-max Seat # 2 - кнопка
Место 1: ххх (200 долларов в фишках)
Место 2: ггг (364,58 долларов в фишках)
Место 3: zxc (200 долларов в фишках)
Место 4: zdf (235,43 долларов в чипах)
Место5: zdasdasII ($ 206,02 в фишках)
Место 6: assfds ($ 92,53 в фишках)

PokerStars Hand # 162960631727: Безлимитный холдем (€ 1 / € 2 EUR) - 2016/12/152:10:16 CET [2016/12/14 20:10:16 ET]

Стол «Сулейка» 6-макс. Сиденье № 4 - это кнопка
Сиденье 2: ххх (137,08 долл. США в фишках)
Место 3: гггг (200 долларов в фишках)
Место 5: xyz (201,20 долларов в фишках)

PokerStars Hand # 163416930846: Безлимитный холдем ($ 1 / $ 2 USD) - 2016/12/ 23 23:39:57 CET [2016/12/23 17:39:57 ET]

Стол «Пиексама»ki II '6-max Сиденье № 5 - это кнопка
Сиденье 1: ххх (230,90 евро в чипах)
Сиденье 2: ггг (256,25 евро в чипах)
Сиденье 3: zzz (200 евро в чипах))
Место 4: DDD (200 евро в чипах)
Место 5: куб. См (223,40 евро в чипах)
Место 6: FFF (77,65 евро в чипах)

file = open(r'example_hands.txt','r')
lines = [i.strip('\n') for i in file]
tab2 = {'Seat1': [],'S1_stack': [], 'Seat2': [], 'S2_stack':[]}
for i in range(len(lines)):
    tab2_2 = re.findall('Seat\s1\:\s(\w+)\s\(\$(\d+(\.\d+)?)\s',lines[i])
    for t2_2 in tab2_2:
        if tab2_2 is None:
            tab2['Seat1'].append(None)
            tab2['S1_stack'].append(None)
        else:
            tab2['Seat1'].append(t2_2[0])
            tab2['S1_stack'].append(t2_2[1])
    tab2_3 = re.findall('Seat\s2\:\s(\w+)\s\(\$(\d+(\.\d+)?)\s',linia[i])
    for t2_3 in tab2_3:
        tab2['Seat2'].append(t2_3[0])
        tab2['S2_stack'].append(t2_3[1])

В настоящее время я не могу добавить None или любое значение в списки.Есть идеи, как это решить?Это возможно с re.findall?Я хочу вывод, как это:

enter image description here

1 Ответ

0 голосов
/ 18 февраля 2019

Вы можете адаптировать следующий прототип, он извлекает всю необходимую информацию из вашего файла.

Единственное, что вам нужно сделать как домашнее задание, - это отобразить его в виде таблицы.

import re

class PockerStarHand:
  def __init__(self, handId, date, seats):
    self.handId=handId
    self.date=date
    self.seats=seats

# does not scale, do this on small input files
with open('example_hands.txt','r') as content_file:
    content = content_file.read()
    chunck = re.findall(ur'^PokerStars\sHand\s#(\d+):.+?-(\s\d{4}\/\d{2}\/\d{2}\s\d{,2}:\d{2}:\d{2}).+\s+Table.+\s+^((?:Seat\s\d:\s\w+\s?\(.+\)\s*)+)',content, re.MULTILINE)
    hands = []
    for c in chunck:
      hands.append(PockerStarHand(c[0],c[1], re.findall(ur'^Seat\s*(\d)\s*\:\s*(\w+)\s*\(([\$\u20AC])(\d+(?:\.\d+)?)',c[2].decode('utf-8') ,re.MULTILINE | re.UNICODE)))

    for hand in hands:
      print ("ID: " + str(hand.handId))
      print ("date: " + str( hand.date))
      for s in hand.seats:
        print ("seat: " + str(s[0]))
        print ("seat text: " + str(s[1]))
        print ("seat curr: " + str(s[2].encode('utf-8')))
        print ("seat price: " + str(s[3]))

Токовый выход:

ID: 163417399919
date:  2016/12/23 23:48:52
seat: 1
seat text: xxx
seat curr: $
seat price: 200
seat: 2
seat text: yyy
seat curr: $
seat price: 364.58
seat: 3
seat text: zxc
seat curr: $
seat price: 200
seat: 4
seat text: zdf
seat curr: $
seat price: 235.43
seat: 5
seat text: zdasdasII
seat curr: $
seat price: 206.02
seat: 6
seat text: assfds
seat curr: $
seat price: 92.53
ID: 162960631727
date:  2016/12/15 2:10:16
seat: 2
seat text: xxx
seat curr: $
seat price: 137.08
seat: 3
seat text: yyy
seat curr: $
seat price: 200
seat: 5
seat text: xyz
seat curr: $
seat price: 201.20
ID: 163416930846
date:  2016/12/23 23:39:57
seat: 1
seat text: xxx
seat curr: €
seat price: 230.90
seat: 2
seat text: yyy
seat curr: €
seat price: 256.25
seat: 3
seat text: zzz
seat curr: €
seat price: 200
seat: 4
seat text: ddd
seat curr: €
seat price: 200
seat: 5
seat text: ccc
seat curr: €
seat price: 223.40
seat: 6
seat text: fff
seat curr: €
seat price: 77.65

Детали регулярного выражения:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...