Токенизация строк в C - PullRequest
       24

Токенизация строк в C

24 голосов
/ 05 ноября 2008

Я пытался токенизировать строку, используя пробел в качестве разделителя, но он не работает. У кого-нибудь есть предложение, почему оно не работает?

Редактировать: токенизация с использованием:

strtok(string, " ");

Код похож на следующий

pch = strtok (str," ");
while (pch != NULL)
{
  printf ("%s\n",pch);
  pch = strtok (NULL, " ");
}

Ответы [ 8 ]

41 голосов
/ 05 ноября 2008

Сделай так:

char s[256];
strcpy(s, "one two three");
char* token = strtok(s, " ");
while (token) {
    printf("token: %s\n", token);
    token = strtok(NULL, " ");
}

Примечание: strtok изменяет строку в соответствии с ее токенизацией, поэтому она не может быть const char*.

35 голосов
/ 05 ноября 2008

Вот пример использования strtok, имейте в виду, что strtok является разрушительным для его входной строки (и, следовательно, никогда не может использоваться для строковой константы

char *p = strtok(str, " ");
while(p != NULL) {
    printf("%s\n", p);
    p = strtok(NULL, " ");
}

В основном следует отметить, что передача NULL в качестве первого параметра в strtok указывает ему получить следующий токен из строки, в которой он был ранее токенизирован.

7 голосов
/ 05 ноября 2008

strtok может быть очень опасным. Это не потокобезопасно. Его предполагаемое использование должно вызываться снова и снова в цикле, передавая результаты предыдущего вызова. Функция strtok имеет внутреннюю переменную, которая хранит состояние вызова strtok. Это состояние не уникально для каждого потока - оно глобально. Если какой-либо другой код использует strtok в другом потоке, у вас возникают проблемы. Не те проблемы, которые вы хотите отследить либо!

Я бы рекомендовал искать реализацию регулярных выражений или использовать sscanf для разделения строки.

Попробуйте это:

char strprint[256];
char text[256];
strcpy(text, "My string to test");
while ( sscanf( text, "%s %s", strprint, text) > 0 ) {
   printf("token: %s\n", strprint);
}

Примечание. Текстовая строка уничтожается при ее разделении. Это не может быть предпочтительным поведением =)

3 голосов
/ 05 ноября 2008

Вы можете упростить код, введя дополнительную переменную.

#include <string.h>
#include <stdio.h>

int main()
{
    char str[100], *s = str, *t = NULL;

    strcpy(str, "a space delimited string");
    while ((t = strtok(s, " ")) != NULL) {
        s = NULL;
        printf(":%s:\n", t);
    }
    return 0;
}
2 голосов
/ 03 сентября 2013

Я сделал несколько строковых функций для разделения значений, используя как можно меньше указателей, потому что этот код предназначен для работы на процессорах PIC18F. Эти процессоры не очень хорошо справляются с указателями, когда у вас мало свободной оперативной памяти:

#include <stdio.h>
#include <string.h>

char POSTREQ[255] = "pwd=123456&apply=Apply&d1=88&d2=100&pwr=1&mpx=Internal&stmo=Stereo&proc=Processor&cmp=Compressor&ip1=192&ip2=168&ip3=10&ip4=131&gw1=192&gw2=168&gw3=10&gw4=192&pt=80&lic=&A=A";

int findchar(char *string, int Start, char C) {
    while((string[Start] != 0)) { Start++; if(string[Start] == C) return Start; }
    return -1;
}

int findcharn(char *string, int Times, char C) {
   int i = 0, pos = 0, fnd = 0;

    while(i < Times) {
       fnd = findchar(string, pos, C);
        if(fnd < 0) return -1;
        if(fnd > 0) pos = fnd;
       i++;
   }
   return fnd;
}

void mid(char *in, char *out, int start, int end) {
    int i = 0;
    int size = end - start;

    for(i = 0; i < size; i++){
        out[i] = in[start + i + 1];
    }
    out[size] = 0;
}

void getvalue(char *out, int index) {
    mid(POSTREQ, out, findcharn(POSTREQ, index, '='), (findcharn(POSTREQ, index, '&') - 1));
}

void main() {
   char n_pwd[7];
   char n_d1[7];

   getvalue(n_d1, 1);

   printf("Value: %s\n", n_d1);
} 
0 голосов
/ 19 февраля 2016

Вот еще одна реализация strtok(), которая может распознавать последовательные разделители (в стандартной библиотеке strtok() этого нет)

Функция является частью лицензированной библиотеки строк BSD, которая называется zString . Вы можете внести свой вклад:)

https://github.com/fnoyanisi/zString

char *zstring_strtok(char *str, const char *delim) {
    static char *static_str=0;      /* var to store last address */
    int index=0, strlength=0;       /* integers for indexes */
    int found = 0;                  /* check if delim is found */

    /* delimiter cannot be NULL
    * if no more char left, return NULL as well
    */
    if (delim==0 || (str == 0 && static_str == 0))
        return 0;

    if (str == 0)
        str = static_str;

    /* get length of string */
    while(str[strlength])
        strlength++;

    /* find the first occurance of delim */
    for (index=0;index<strlength;index++)
        if (str[index]==delim[0]) {
            found=1;
            break;
        }

    /* if delim is not contained in str, return str */
    if (!found) {
        static_str = 0;
        return str;
    }

    /* check for consecutive delimiters
    *if first char is delim, return delim
    */
    if (str[0]==delim[0]) {
        static_str = (str + 1);
        return (char *)delim;
    }

    /* terminate the string
    * this assignmetn requires char[], so str has to
    * be char[] rather than *char
    */
    str[index] = '\0';

    /* save the rest of the string */
    if ((str + index + 1)!=0)
        static_str = (str + index + 1);
    else
        static_str = 0;

        return str;
}

Как упоминалось в предыдущих постах, поскольку strtok(), или тот, который я упоминал выше, опирается на переменную static *char для сохранения местоположения последнего разделителя между последовательными вызовами, следует соблюдать особую осторожность при работе с многопоточными мки.

0 голосов
/ 01 ноября 2013
int not_in_delimiter(char c, char *delim){

    while(*delim != '\0'){
            if(c == *delim) return 0;
            delim++;
    }
    return 1;
}

char *token_separater(char *source, char *delimiter, char **last){

char *begin, *next_token;
char *sbegin;

/*Get the start of the token */
if(source)
  begin = source;
else
  begin = *last;

sbegin = begin;

/*Scan through the string till we find character in delimiter. */
while(*begin != '\0' && not_in_delimiter(*begin, delimiter)){
       begin++;
}

/* Check if we have reached at of the string */
if(*begin == '\0') {
/* We dont need to come further, hence return NULL*/
   *last = NULL;
    return sbegin;
}
/* Scan the string till we find a character which is not in delimiter */
 next_token  = begin;
 while(next_token != '\0' && !not_in_delimiter(*next_token, delimiter))    {
    next_token++;
 }
 /* If we have not reached at the end of the string */
 if(*next_token != '\0'){
  *last = next_token--;
  *next_token = '\0';
   return sbegin;
}
}

 void main(){

    char string[10] = "abcb_dccc";
    char delim[10] = "_";
    char *token = NULL;
    char *last = "" ;
    token  = token_separater(string, delim, &last);
    printf("%s\n", token);
    while(last){
            token  = token_separater(NULL, delim, &last);
            printf("%s\n", token);
    }

}

Детальный анализ вы можете прочитать в блоге, указанном в моем профиле:)

0 голосов
/ 05 ноября 2008

При чтении документации strtok я вижу, что вам нужно передать нулевой указатель после первого «инициализирующего» вызова. Может быть, вы этого не сделали. Просто предположение, конечно.

...