Как избежать строк, которые содержат как строки, так и числа, прежде чем разбивать их? - PullRequest
0 голосов
/ 09 февраля 2019

Я использую Python 3, и я читаю файлы, которые состоят из нескольких строк, которые содержат текст и число вместе, и из определенной строки это только столбцы чисел, которые первоначально они также читаются как str после разбиения, которые я позже конвертируюих плавать.

данные выглядят так.Я также добавляю ссылку к образцу чисел

https://gist.github.com/Farzadtb/b0457223a26704093524e55d9b46b1a8

enter image description here

Так что проблема в том, что для чтения у меня естьдва условия (на самом деле я хочу увеличить эти условия) с помощью try: кроме.но это работает только для разделения метода расщепления.но прежде чем начать расщепление, мне нужно удалить первые строки, содержащие текст.я знаю, что я должен использовать

, за исключением ValueError

, но это на самом деле не работает!

f = io.open(file, mode="r", encoding="utf-8")
    #f=open(file,"r")
    lines=f.readlines()

    x=[]
    y=[]
    z=[]    

    for i in lines:

        try:
            a=[i.strip('\n')]
            a1=[float(n) for n in a[0].split(',')]
            atot.append(a1)
            x.append(a1[3])
            y.append(a1[2])
            z.append(a1[1])

        except :
             a=[i.split('\n')]
             a1=[float(n) for n in a[0].split()]
             x.append(a1[3])
             y.append(a1[2])
             z.append(a1[1])

проблема в том, что, поскольку первые строки могут также начинаться с цифр, возможно, что первый параметр разделен и добавлен к "x" и "y", но я получаю ошибку для z

x=[float(i) for i in x]
y=[float(i) for i in y]
z=[float(i) for i in z]

Одна идея, которая приходит мне в голову, состоит в том, чтобы проверить, можно ли преобразовать строку в float без ошибок, а затем продолжить расщепление, но я не знаю, как это сделать

1 Ответ

0 голосов
/ 09 февраля 2019

Вы должны попробовать это.Этот код использует регулярное выражение, чтобы найти данные как чистый способ.

import pprint
import re

if __name__ == '__main__':
    # pattern to ignore line containing alpha or :
    ignore_pattern = re.compile(r'[^a-zA-Z:]*[a-zA-Z:]')
    # number pattern
    number_pattern = re.compile(r'[-.\d]+')

    matrix = []

    # open the file as readonly
    with open('data.txt', 'r') as file_:

        # iterator over lines
        for line in file_:
            # remove \n and spaces at start and end
            line = line.strip()
            if not ignore_pattern.match(line):

                found = number_pattern.findall(line)
                if found:
                    floats = [float(x) for x in found]
                    matrix.append(floats)

    # print matrix in pretty format
    pp = pprint.PrettyPrinter()
    pp.pprint(matrix)

    # access value by [row][column] starting at 0
    print(matrix[0][2])

Проверено на ваших данных образца.Это стандартный вывод сценария Python:

[[-3.1923, 0.6784, -4.6481, -0.0048, 0.3399, -0.2829, 0.0, 24.0477],
 [-3.1827, 0.7048, -4.6257, 0.0017, 0.3435, -0.2855, 0.0, 24.0477],
 [-3.1713, 0.7237, -4.5907, 0.0094, 0.3395, -0.2834, 0.0, 24.0477]]
-4.6481
...