Question

Я пишу некоторый код, который должен читать fasta-файлы , поэтому часть моего кода (включенного ниже) - это анализатор фаста. Поскольку одна последовательность может занимать несколько строк в формате fasta, мне нужно объединить несколько последовательных строк, считанных из файла, в одну строку. Я делаю это, перераспределяя строковый буфер после чтения каждой строки, чтобы быть текущей длиной последовательности плюс длина прочитанной строки. Я делаю некоторые другие вещи, такие как удаление пробелов и т. Д. Все идет хорошо для первая последовательность, но файлы fasta могут содержать несколько последовательностей. Аналогичным образом, у меня есть динамический массив структур с двумя строками (заголовок и фактическая последовательность), представляющими собой «char *». Опять же, когда я сталкиваюсь с новым заголовком (представленным строкой, начинающейся с '>'), я увеличиваю количество последовательностей и перераспределяю буфер списка последовательностей. Ошибка realloc при выделении пространства для второй последовательности с

*** glibc detected *** ./stackoverflow: malloc(): memory corruption: 0x09fd9210 ***
Aborted

За свою жизнь я не понимаю почему. Я запустил его через GDB, и все, кажется, работает (т.е. все инициализировано, значения кажутся нормальными) ... Вот код:

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <ctype.h>
#include <math.h>
#include <errno.h>

//a struture to keep a record of sequences read in from file, and their titles
typedef struct {
    char *title;
    char *sequence;
} sequence_rec;

//string convenience functions

//checks whether a string consists entirely of white space
int empty(const char *s) {
    int i;
    i = 0;
    while (s[i] != 0) {
        if (!isspace(s[i])) return 0;
        i++;
    }
    return 1;
}

//substr allocates and returns a new string which is a substring of s from i to
//j exclusive, where i < j; If i or j are negative they refer to distance from
//the end of the s
char *substr(const char *s, int i, int j) {
    char *ret;
    if (i < 0) i = strlen(s)-i;
    if (j < 0) j = strlen(s)-j;
    ret = malloc(j-i+1);
    strncpy(ret,s,j-i);
    return ret;
}

//strips white space from either end of the string
void strip(char **s) {
    int i, j, len;
    char *tmp = *s;
    len = strlen(*s);
    i = 0;
    while ((isspace(*(*s+i)))&&(i < len)) {
        i++;
    }
    j = strlen(*s)-1;
    while ((isspace(*(*s+j)))&&(j > 0)) {
        j--;
    }
    *s = strndup(*s+i, j-i);
    free(tmp);
}


int main(int argc, char**argv) {
    sequence_rec *sequences = NULL;
    FILE *f = NULL;
    char *line = NULL;
    size_t linelen;
    int rcount;
    int numsequences = 0;

    f = fopen(argv[1], "r");
    if (f == NULL) {
        fprintf(stderr, "Error opening %s: %s\n", argv[1], strerror(errno));
        return EXIT_FAILURE;
    }
    rcount = getline(&line, &linelen, f);
    while (rcount != -1) {
        while (empty(line)) rcount = getline(&line, &linelen, f);
        if (line[0] != '>') {
            fprintf(stderr,"Sequence input not in valid fasta format\n");
            return EXIT_FAILURE;
        }

        numsequences++;
        sequences = realloc(sequences,sizeof(sequence_rec)*numsequences);
        sequences[numsequences-1].title = strdup(line+1); strip(&sequences[numsequences-1].title);
        rcount = getline(&line, &linelen, f);
        sequences[numsequences-1].sequence = malloc(1); sequences[numsequences-1].sequence[0] = 0;
        while ((!empty(line))&&(line[0] != '>')) {
            strip(&line);
            sequences[numsequences-1].sequence = realloc(sequences[numsequences-1].sequence, strlen(sequences[numsequences-1].sequence)+strlen(line)+1);
            strcat(sequences[numsequences-1].sequence,line);
            rcount = getline(&line, &linelen, f);
        }
    }
    return EXIT_SUCCESS;
}

leif · Answer 1 · 23 января 2012

Вы должны использовать строки, которые выглядят примерно так:

struct string {
    int len;
    char *ptr;
};

Это предотвращает ошибки strncpy, такие как те, что вы видели, и позволяет вам быстрее работать с strcat и друзьями.

ВыТакже следует использовать удваивающий массив для каждой строки.Это предотвращает слишком много выделений и memcpys.Примерно так:

int sstrcat(struct string *a, struct string *b)
{
    int len = a->len + b->len;
    int alen = a->len;
    if (a->len < len) {
        while (a->len < len) {
            a->len *= 2;
        }
        a->ptr = realloc(a->ptr, a->len);
        if (a->ptr == NULL) {
            return ENOMEM;
        }
    }
    memcpy(&a->ptr[alen], b->ptr, b->len);
    return 0;
}

Теперь я вижу, что вы занимаетесь биоинформатикой, а это значит, что вам, вероятно, нужно больше производительности, чем я думал.Вместо этого вы должны использовать такие строки:

struct string {
    int len;
    char ptr[0];
};

Таким образом, когда вы выделяете строковый объект, вы вызываете malloc(sizeof(struct string) + len) и избегаете второго вызова malloc.Это немного больше работы, но она должна помочь измерить, с точки зрения скорости, а также фрагментации памяти.

Наконец, если это на самом деле не источник ошибки, похоже, у вас есть какая-то ошибка.Valgrind должен помочь вам обнаружить его, если GDB потерпит неудачу.

NPE · Answer 2 · 23 января 2012

Одна потенциальная проблема здесь:

strncpy(ret,s,j-i);
return ret;

ret может не получить нулевой терминатор. См man strncpy:

       char *strncpy(char *dest, const char *src, size_t n);

       ...

       The strncpy() function is similar, except that at most n bytes  of  src
       are  copied.  Warning: If there is no null byte among the first n bytes
       of src, the string placed in dest will not be null terminated.

Здесь также есть ошибка:

j = strlen(*s)-1;
while ((isspace(*(*s+j)))&&(j > 0)) {

Что если strlen(*s) равно 0? Вы закончите читать (*s)[-1].

Вы также не регистрируете strip(), что строка не состоит полностью из пробелов. Если это произойдет, вы получите j < i.

edit: Только что заметил, что ваша функция substr() на самом деле не вызывается.

Michael Burr · Answer 3 · 23 января 2012

Я думаю, что проблема повреждения памяти может быть результатом того, как вы обрабатываете данные, используемые в ваших getline() вызовах. По сути, line перераспределяется через strndup() в вызовах на strip(), поэтому размер буфера, отслеживаемый в linelen с помощью getline(), больше не будет точным. getline() может переполнить буфер.

while ((!empty(line))&&(line[0] != '>')) {

    strip(&line);    // <-- assigns a `strndup()` allocation to `line`

    sequences[numsequences-1].sequence = realloc(sequences[numsequences-1].sequence, strlen(sequences[numsequences-1].sequence)+strlen(line)+1);
    strcat(sequences[numsequences-1].sequence,line);

    rcount = getline(&line, &linelen, f);   // <-- the buffer `line` points to might be
                                            //      smaller than `linelen` bytes

}

Использование realloc для расширения буфера при чтении из файловых сбоев

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование realloc для расширения буфера при чтении из файловых сбоев

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы