Как исправить пропущенные значения в цикле for в списке Python? - PullRequest
0 голосов
/ 16 апреля 2019

Я хочу закодировать значение списка Python, чтобы уточнить его, но значение отсутствует в середине моей функции.

Моя среда выглядит следующим образом.

ПК 1 - Windows 10 (64-разрядная версия) без графического процессора, Python 3.6.8 (Anaconda), PyCharm 2018.1.

ПК 2 - Windows 10 (64-разрядная версия) с графическим процессором, Python 3.6.8 (Anaconda), PyCharm 2019.1.

Я хочу получить информацию о последовательности белка из файла'meme.txt 'и преобразовать строковые данные в целочисленный тип. Однако, поскольку последовательность представляет собой строку, я создал функцию для создания и преобразования словарной таблицы, например кода, при переходе к целому числу. Тем не менее, я не знаю, в чем причина, но нет значения, когда i = 860, j = 106 в x [i] [j] Итак, цикл for остановился с ошибкой, указанной ниже.

import numpy as np
from keras.utils import np_utils


file = 'enzyme.txt'


def data(file):
    f = open(file, 'r')
    lines = f.readlines()
    seq = []
    ec = []
    for i in range(0, len(lines)):
        lines[i] = lines[i].strip('\n')
        seq.append(lines[i][:-2])
        ec.append(lines[i][-1])
    f.close()
    return seq, ec

x, y = data(file)

Amino_Acid_Scalar = {
    'X': 0,
    'A': 1,
    'C': 2,
    'D': 3,
    'E': 4,
    'F': 5,
    'G': 6,
    'H': 7,
    'I': 8,
    'K': 9,
    'L': 10,
    'M': 11,
    'N': 12,
    'P': 13,
    'Q': 14,
    'R': 15,
    'S': 16,
    'T': 17,
    'V': 18,
    'W': 19,
    'Y': 20
}


def amino_acid_to_scalar(amino_acid):
    if not amino_acid in Amino_Acid_Scalar:
        return None
    return Amino_Acid_Scalar[amino_acid]


def sequence_to_scalar(sequence):
    scalar = [amino_acid_to_scalar(amino_acid) for amino_acid in sequence]
    if None in scalar:
        return None
    return scalar


def sequences_to_scalar(sequences):
    scalars = [sequence_to_scalar(sequence) for sequence in sequences]
    return scalars


x = sequences_to_scalar(x)

for i in range(0, len(x)):
    for j in range(0, len(x[i])):
        #print(x[i][j], i, j)
        #tmp = x[i][j]
        #print(tmp)
        #arr[i][j] = tmp
        pass

y = np_utils.to_categorical(y, 7)
x = np.array(x)
y = np.array(y, dtype='int64')

В файле «энзим.txt» столбцы с 858 по 862 выглядят следующим образом.

ATKAVCVLKGDGPVQGIINFEQKESNGPVKVWGSIKGLTEGLHGFHVHEFGDNTAGCTSAGPHFNPLSRKHGGPKDEERHVGDLRNVTADKDGVADVSIEDSVISLSGDHCIIGRTLVVHEKADDLGKGGNEESTKTGNAGSRLACGVIGIAQ,1
ATKAVCVLKGDGPVQGIINFEQKESNGPVKVWGSIKGLTEGLHGFHVHEFGDNTAGCTSAGPHFNPLSRKHGGPKDEERHVGDLRNVTADKDGVADVSIEDSVISLSGDHCIIGRTLVVHEKADDLGKGGNEESTKTGNAGSRLACGVIGIAQ,1
MRVVVIGAGVIGLSTALCIHERYHSVLQPLDIKVYADRFTPLTTTDVAAGLWQPYLSDPNNPQEADWSQQTFDYLLSHVHGCALEAAKLFGRILEEKKLSRMPPSHL,1
MPKFYCDYCDTYLTHDSPSVRKTHCSGRKHKENVKDYYCKWMEEQAQSLIDKTTAAFQQGKIPPTPFSAPPPAGAMIUGGGAAACUCGACUGCAUAAUUUGUGGUAGUGGGGGACUGCGUUCGCGCUUUCCCCUG,1
GPHMSIHSGRIAAVHNVPLSVLIRPLPSVLDPAKVQSLVDTIREDPDSVPPIDVLWIKGAQGGDYFYSFGGSHRYAAYQQLQRETIPAKLVQSTLSDLRVYLGASTPDLQ,1

Отображается следующая ошибка.

Using TensorFlow backend.
Traceback (most recent call last):
  File "C:\Program Files\JetBrains\PyCharm 2018.1\helpers\pydev\pydev_run_in_console.py", line 53, in run_file
    pydev_imports.execfile(file, globals, locals)  # execute the script
  File "C:\Program Files\JetBrains\PyCharm 2018.1\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
    exec(compile(contents+"\n", file, 'exec'), glob, loc)
  File "C:/Users/Inyong/Documents/PycharmProjects/Test/Test_4_TXT.py", line 81, in <module>
    for j in range(0, len(x[i])):
TypeError: object of type 'NoneType' has no len()

Поэтому, когда я пытаюсь увидеть значение того, где он остановился,

> x[860][106]

Я получаю следующую ошибку.

Traceback (most recent call last):
  File "<input>", line 1, in <module>
TypeError: 'NoneType' object is not subscriptable

Я очень ценю вашу помощь.

1 Ответ

0 голосов
/ 16 апреля 2019

Вы хорошо выследили проблему. То, что вы видите, есть x = None или x[860]=None, потому что у вас не может быть None[186].

Мои предложения по коду в целом:

  • сначала выйдите из привычки итерации по len(thing) или range(len(thing)). Потому что ошибки трудно отследить, не так ли :). Смотрите замечательный разговор на эту тему https://www.youtube.com/watch?v=EnSu9hHGq5o
  • открывать файлы проще, используя ключевое слово «with», вы увидите это в документации в качестве менеджера контекста (пример использования этого см. Ниже)
  • Внизу у вас есть код NumPy. Хотя я думаю, что это здорово, ты думаешь о скорости. Я бы не стал использовать Numpy или Pandas .astype ('category') или что-то подобное, потому что одна последовательность может быть всеми буквами "L", и в этот момент все они будут отображаться в ноль, а не в десять, как у вас в словаре Amino_Acid_Scalar.
  • Я не знаю, были ли значения Amino_Acid_Scalar тем, что вы выбрали или вам дали, но я бы предложил использовать что-то более простое, например ord(base)-65, тогда ваше отображение будет проще и
  • ваши базы будут хорошо вписываться в Numpy Array с int8 в качестве dtype.

Этот код можно сократить.

def amino_acid_to_scalar(amino_acid):
    if not amino_acid in Amino_Acid_Scalar:
        return None
    return Amino_Acid_Scalar[amino_acid]

Вы можете заменить эту функцию методом словаря "get":

Amino_Acid_Scalar.get(amino_acid, None)

где "None" - это значение по умолчанию, которое вы хотите отправить обратно, если ключа нет. (или вы можете использовать сокращенную версию Amino_Acid_scalar.get(amino_acid), потому что None является возвращаемым значением по умолчанию)

import numpy as np
from keras.utils import np_utils


Amino_Acid_Scalar = {
    'X': 0,
    'A': 1,
    'C': 2,
    'D': 3,
    'E': 4,
    'F': 5,
    'G': 6,
    'H': 7,
    'I': 8,
    'K': 9,
    'L': 10,
    'M': 11,
    'N': 12,
    'P': 13,
    'Q': 14,
    'R': 15,
    'S': 16,
    'T': 17,
    'V': 18,
    'W': 19,
    'Y': 20
}

file = 'enzyme.txt'

seqs = []
ecs = []


with open(file, 'r') as f:
    for line in f:
        try:
            seq, ec=line.strip().partition(',')[0:3:2]
            seqs.append(seq)
            ecs.append(ec)
        except (ValueError, IndexError) as e:
            print(f'problem was at line {line} with error: {e}')


def sequence_to_scalar(sequence):
    for amino_acid in sequence:
        value = Amino_Acid_Scalar.get(amino_acid, None)
        if value:
            yield value


def sequences_to_scalar(sequences):
    scalars = [sequence_to_scalar(sequence) for sequence in sequences]
    return scalars


scalar_seqs = sequences_to_scalar(seqs)

for count, seq in enumerate(scalar_seqs):
    for count_inner, base in enumerate(seq):
        print(f'{count}, {count_inner}, {base}')
...