Question

Как я могу отслеживать, сколько раз слово появляется в текстовом файле? Я хотел бы сделать это для каждого слова.

Например, если ввод выглядит примерно так:

"мужчина сказал привет мальчику."

Каждый из "человек сказал привет мальчику" будет иметь место 1.

"the" может иметь значение 2.

Я думал о том, чтобы сохранить словарь с парами слово / вхождение, но я не уверен, как реализовать это в C. Ссылка на любые похожие или связанные проблемы с решением была бы отличной.

РЕДАКТИРОВАТЬ: Чтобы избежать развертывания моей собственной хэш-таблицы, я решил научиться использовать glib. По пути я нашел отличный учебник, в котором рассказывается о похожих проблемах. http://bo.majewski.name/bluear/gnu/GLib/ch03s03.html

Я поражен количеством различных подходов, в частности простотой и элегантностью реализации Ruby.

martinus · Answer 1 · 26 декабря 2008

Просто для любопытных, вот простое решение проблемы подсчета слов в Ruby. Это должен быть в основном тот же алгоритм на C, только с гораздо большим количеством кода.

h = Hash.new(0)
File.read("filename.txt").split.each do |w|
  h[w] += 1
end
p h

Jonathan Leffler · Answer 2 · 26 декабря 2008

Это считается?

#include <stdio.h>
#include <stdlib.h>
int main(int argc, char **argv)
{
    char buffer[2048];
    if (argc != 2)
    {
        fprintf(stderr, "Usage: %s file\n", argv[0]);
        exit(EXIT_FAILURE);
    }
    snprintf(buffer, sizeof(buffer), "tr -cs '[a-z][A-Z]' '[\\n*]' < %s |"
                                     " sort | uniq -c | sort -n", argv[1]);
    return(system(buffer));
}

Это в основном инкапсулирует канонический сценарий, иллюстрирующий, как считать слова в Unix как сценарий оболочки.

Команда 'tr' переводит все, что не является буквенным символом, в новую строку и выжимает дубликаты. Первый 'sort' группирует все вхождения каждого слова вместе. 'uniq -c' подсчитывает количество последовательных появлений каждого слова, печатая слово и его количество. Второй 'sort' помещает их в порядке возрастания повторений. Возможно, вам придется пообщаться с опциями 'tr'; это не самая стабильная команда от системы к системе, и она постоянно заставляет меня делать ручные операции. На Solaris 10 с использованием / usr / bin / tr приведенный выше код выдает (из собственного источника):

   1
   1 A
   1 EXIT
   1 FAILURE
   1 Usage
   1 Z
   1 a
   1 c
   1 cs
   1 exit
   1 file
   1 fprintf
   1 if
   1 main
   1 return
   1 sizeof
   1 snprintf
   1 stderr
   1 stdio
   1 stdlib
   1 system
   1 tr
   1 uniq
   1 z
   2 argc
   2 char
   2 h
   2 include
   2 int
   2 s
   2 sort
   3 argv
   3 n
   4 buffer

ShreevatsaR · Answer 3 · 26 декабря 2008

Да, словарь с парами слов-вхождений будет работать нормально, и обычным способом реализации такого словаря будет использование хеш-таблицы (или, иногда, двоичного дерева поиска).

Вы также можете использовать Trie (или его сжатую версию, "Patricia Trie" / Radix Trie), чья сложность асимптотически оптимальна для этой проблемы, хотя я подозреваю, что на практике это может быть медленнее, чем (хорошая) реализация хеш-таблицы.

[Я действительно думаю, что хэш-таблицы или попытки лучше, зависит от распределения слов в вашем входе - например, хеш-таблица должна хранить каждое слово в своем хэш-контейнере (для защиты от коллизий), в то время как если у вас много слов с общими префиксами, в три эти общие префиксы являются общими и должны храниться только один раз, но все указатели по-прежнему накладываются на расходы ... если вы попробуете оба, мне любопытно узнать, как они сравниваются.]

Miguel A. Friginal · Answer 4 · 26 декабря 2008

Для отдельных слов вообще не нужно писать программу, если это не часть чего-то большего:

sed -e 's/[[:space:]]/\n/g' < file.txt | grep -c WORD

dsm · Answer 5 · 08 мая 2009

в Perl:

my %wordcount = ();
while(<>){map {$wordcount{$_}++} (split /\s+/)}
print "$_ = $wordcount{$_}\n" foreach sort keys %wordcount;

и в Perl Golf (просто для удовольствия):

my%w;                       
map{$w{$_}++}split/\s+/while(<>); 
print"$_=$w{$_}\n"foreach keys%w;

Jared · Answer 6 · 26 декабря 2008

Вы можете использовать хеш-таблицу, и каждая запись в хеш-таблице будет указывать на структуру, содержащую слово и количество раз, когда она была найдена.

Miguel A. Friginal · Answer 7 · 08 мая 2009

#include <conio.h>
#include <iostream.h>
#include <fstream.h>
#include <cstdlib>

struct stdt
{
       char name[20] ;
       int id ;

}; //std

int main()
{
      stdt boy ;
      int a = 0 ;
      ofstream TextFile ;
      cout << "Begin File Creation \n" ;
      TextFile.open("F:\\C++ Book Chapter Program\\Ch  7\\File.txt" );
      if ( !TextFile)
      {
           cerr <<"Erro 100 Openoing File.DAT" ;
           exit(100);     
      }//end if
      while ( a < 3 )
      {
            TextFile.write( (char*) &boy , sizeof (boy) ) ;
            cout << "\nEnter Name : " ;
            cin  >> boy.name;
            cout << "\nEnter ID : " ;
            cin  >> boy.id ;
            a++;
      }//end while

      TextFile.close();
      cout << "\nEnd File Creation" ;

      ifstream TextFile1 ;
      TextFile1.open("F:\\C++ Book Chapter Program\\Ch  7\\File.txt" );
      while ( TextFile1.read( (char*) &boy , sizeof (boy) ) )
      {
            cout << "\nEnter Name : " << boy.name; 
            cout << "\nEnter ID : " << boy.id ;


      }// end While

      getch();
      return 0 ;
}//end main

nlaq · Answer 8 · 26 декабря 2008

ПРЕДУПРЕЖДЕНИЕ непроверенный код:

#include <stdio.h>

struct LLNode
{
    LLNode* Next;    
    char*   Word;
    int     Count;
};

void PushWord(LLNode** list, const char* word)
{
    LLNode* node = NULL;
    unsigned int len = 0;
    if (*list == NULL) 
    {
        $list = new LLNode;
        $list = "\0";
    }
    node = *list;
    while ((node = node->Next) != NULL) // yes we are skipping the first node
    {
        if (!strcmp(node->Word, word))
        {
            node->Count++;
            break;
        }

        if (!node->Next)
        {
            LLNode* nnode = new LLNode;
            nnode->Count = 1;
            node->Next = nnode;
            len = strlen(word);
            node->Word = new char[len + 1];
            strcpy(node->Word, word);
            break;
        }
    }
}

void GetCounts(LLNode* list)
{
    if (!list)
        return;
    LLNode* node = list;
    while ((node = node->Next) != NULL) // yes we are skipping the first node
    {
        printf("Word: %s, Count: %i", node->Word, node->Count);
    }
}

void PushWords(LLNode** list, const char* words)
{
    char ch = '\0';
    unsigned int len = strlen(words);
    char buff[len]; // to be sure we have no buffer ovverunes. May consume too much memery for your application though.
    int index = 0;
    for (unsigned int i = 0; i < len; i++)
    {
        ch = words[i];
        if (index > 0 && ch == ' ')
        {
            ch[index + 1] = '\0';
            PushWords(list, buff);
            index = 0;
        }
        else if (ch != ' ')
        {
            ch[index++] = ch;
        }
    }

    if (index > 0 && ch == ' ')
    {
        ch[index + 1] = '\0';
        PushWords(list, buff);
        index = 0;
    }
}

int main()
{
    LLNode* list = NULL;
    PushWords(&list, "Hello world this is a hello world test bla");
    GetCount(list);
    // release out memery here
}

Я написал это только сейчас, так что проболы не сработают - но это общая идея.

Еще один черновик на этот раз в C ++ (примечание: std :: map имеет довольно хорошее время поиска):

#include <iostream>
#include <string>
#include <map>

using namespace std;

typedef map<string, int> CountMap;

void PushWords(CountMap& list, const char* words)
{
    char ch = '\0';
    unsigned int len = strlen(words);
    string str;
    int index = 0;
    for (unsigned int i = 0; i < len; i++)
    {
        ch = words[i];
        if (index > 0 && ch == ' ')
        {
            list[str] = list[str] + 1;
            index = 0;
        }
        else if (ch != ' ')
        {
            str += ch;
            index++;
        }
    }

    if (index > 0 && ch == ' ')
    {
        list[str] = list[str] + 1;
    }
}

void PrintCount(CountMap& list)
{
    CountMap::iterator iter = list.begin(), end = list.end();
    for (; iter != end; ++iter)
    {
        cout << (*iter).first << " : " << (*iter).second;
    }
}


int main()
{
    CountMap map;
    PushWords(map, "Hello world this is a hello world test bla");
    PrintCount(map);
}

Подсчет количества появлений слов в текстовом файле

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подсчет количества появлений слов в текстовом файле

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы