Как разбить текстовый файл на слова? - PullRequest
7 голосов
/ 16 марта 2009

Я работаю над заданием, в котором я должен прочитать файл, сосчитать количество строк и одновременно посчитать слова в нем Я попробовал комбинацию getline и strtok внутри цикла while, но это не сработало.

file: example.txt (файл для чтения).

Привет, привет, какой приятный сюрприз.
Добро пожаловать в это место.
Желаю вам приятного отдыха здесь.
(3 строки и несколько слов).

Readfile.cpp

#include <iostream>
#include <fstream>
#include<string>
using namespace std;
int main()
{
  ifstream in("example.txt");
  int count = 0;

  if(!in)
  {
    cout << "Cannot open input file.\n";
    return 1;
  }

  char str[255];
  string tok;
  char * t2;

  while(in)
  {
    in.getline(str, 255);
    in>>tok;
    char *dup = strdup(tok.c_str());
    do 
    {
        t2 = strtok(dup," ");
    }while(t2 != NULL);
    cout<<t2<<endl;
    free (dup);
    count++;
  }
  in.close();
  cout<<count;
  return 0;
}

Ответы [ 6 ]

5 голосов
/ 16 марта 2009

Просто правильно понял !! Просто удалил весь ненужный код.

int main()
{    
    ifstream in("example.txt");
    int LineCount = 0;
    char* str = new char[500];

    while(in)
    {
        LineCount++;
        in.getline(str, 255);
        char * tempPtr = strtok(str," ");
        while(tempPtr)
        {
            AddWord(tempPtr, LineCount);
            tempPtr = strtok(NULL," ,.");
        }
    }
    in.close();
    delete [] str;
    cout<<"Total No of lines:"<<LineCount<<endl;
    showData();

    return 0;
}

Кстати, первоначальная формулировка проблемы заключалась в создании индексной программы, которая принимала бы пользовательский файл и создавала строковый индекс всех слов.

3 голосов
/ 18 марта 2009

Я не пробовал компилировать это, но вот альтернатива, которая почти так же проста, как использование Boost, но без дополнительной зависимости.

#include <iostream>
#include <sstream>
#include <string>

int main() {
  std::string line;
  while (std::getline(std::cin, line)) {
    std::istringstream linestream(line);
    std::string word;
    while (linestream >> word) {
      std::cout << word << "\n";
    }
  }
  return 0;
 }
0 голосов
/ 25 декабря 2013
ifstream is {"my_file_path"}; 
vector<string> b {istream_iterator<string>{is},istream_iterator<string>{}};

Не забудьте включить это:

<iterator>
0 голосов
/ 16 марта 2009

Если вы можете использовать библиотеки boost, я бы предложил использовать boost :: tokenizer :

Пакет Boost Tokenizer обеспечивает гибкий и простой в использовании способ взлома строки или другого символа последовательность в серии токенов. Ниже приведен простой пример, который будет разбить фразу на слова.

// simple_example_1.cpp
#include<iostream>
#include<boost/tokenizer.hpp>
#include<string>

int main(){
   using namespace std;
   using namespace boost;
   string s = "This is,  a test";
   tokenizer<> tok(s);
   for(tokenizer<>::iterator beg=tok.begin();beg!=tok.end();++beg){
       cout << *beg << "\n";
   }
}
0 голосов
/ 16 марта 2009

В интернете есть примеры, подобные этому. Вот программа подсчета слов, которую я написал, когда учился в средней школе. Используйте это как отправную точку. Другие вещи, на которые я хотел бы обратить внимание:

std :: stringstream: вы std :: getline всей строки, а затем используете std :: stringstream, чтобы разбить его на более мелкие части и разбить его на токены Вы можете получить всю строку, используя std :: getline, и ввести ее в std :: string, которую затем можете передать в std :: stringstream.

Еще раз, это всего лишь пример, и он не будет делать именно то, что вы хотите, вы должны будете изменить его сами, чтобы он делал то, что вы хотите!

#include <iostream>
#include <map>
#include <string>
#include <cmath>
#include <fstream>

// Global variables
        std::map<std::string, int> wordcount;
        unsigned int numcount;

void addEntry (std::string &entry) {
        wordcount[entry]++;
        numcount++;
        return;
}


void returnCount () {
        double percentage = numcount * 0.01;
        percentage = floor(percentage + 0.5f);

        std::map<std::string, int>::iterator Iter;

        for (Iter = wordcount.begin(); Iter != wordcount.end(); ++Iter) {
                if ((*Iter).second > percentage) {
                        std::cout << (*Iter).first << " used " << (*Iter).second << " times" << std::endl;
                }
        }

}

int main(int argc, char *argv[]) {
        if (argc != 2) {
                std::cerr << "Please call the program like follows: \n\t" << argv[0] 
                        << " <file name>" << std::endl;
                return 1;
        }

        std::string data;

        std::ifstream fileRead;
        fileRead.open(argv[1]);
        while (fileRead >> data) {
                addEntry(data);
        }
        std::cout << "Total words in this file: " << numcount << std::endl;
        std::cout << "Words that are 1% of the file: " << std::endl;
        returnCount();
}
0 голосов
/ 16 марта 2009

Попробуйте переместить оператор cout<<t2<<end; в цикл while.

Это должно сделать ваш код в основном функциональным.

Возможно, вы захотите увидеть этот аналогичный пост для других подходов.

...