Написать в файл обрезать - PullRequest
3 голосов
/ 12 апреля 2011

Моя цель - взять файл предложений, применить некоторую базовую фильтрацию и вывести оставшиеся предложения в файл и на терминал. Я использую библиотеку Hunspell.

Вот как я получаю предложения из файла:

    public static string[] sentencesFromFile_old(string path)
    {
        string s = "";
        using (StreamReader rdr = File.OpenText(path))
        {
            s = rdr.ReadToEnd();
        }
        s = s.Replace(Environment.NewLine, " ");
        s = Regex.Replace(s, @"\s+", " ");
        s = Regex.Replace(s, @"\s*?(?:\(.*?\)|\[.*?\]|\{.*?\})", String.Empty);
        string[] sentences = Regex.Split(s, @"(?<=\. |[!?]+ )");
        return sentences;
    }

Вот код, который пишет в файл:

        List<string> sentences = new List<string>(Checker.sentencesFromFile_old(path));
        StreamWriter w = new StreamWriter(outFile);
        foreach(string x in xs)
            if(Checker.check(x, speller))
            {
                w.WriteLine("[{0}]", x);
                Console.WriteLine("[{0}]", x);
            }

Вот проверка:

    public static bool check(string s, NHunspell.Hunspell speller)
    {
        char[] punctuation = {',', ':', ';', ' ', '.'};
        bool upper = false;
        // Check the string length.
        if(s.Length <= 50 || s.Length > 250)
            return false;
        // Check if the string contains only allowed punctuation and letters.
        // Also disallow words with multiple consecutive caps.
        for(int i = 0; i < s.Length; ++i)
        {
            if(punctuation.Contains(s[i]))
                continue;
            if(Char.IsUpper(s[i]))
            {
                if(upper)
                    return false;
                upper = true;
            }
            else if(Char.IsLower(s[i]))
            {
                upper = false;
            }
            else return false;
        }
        // Spellcheck each word.
        string[] words = s.Split(' ');
        foreach(string word in words)
            if(!speller.Spell(word))
                return false;
        return true;
    }

Предложения печатаются на терминале просто отлично, но текстовый файл обрезает середину предложения до 2015 символов. Что с этим?

РЕДАКТИРОВАТЬ: Когда я удаляю некоторые части метода check, файл обрезается с различной длиной где-то около 2000 или 4000. Удаление проверки орфографии полностью исключает обрезание.

Ответы [ 2 ]

6 голосов
/ 12 апреля 2011

Вам нужно очистить поток перед его закрытием.

w.Flush();
w.Close();

Оператор using (который также следует использовать) автоматически закроет поток, но не очистит его.

using( var w = new StreamWriter(...) )
{
  // Do stuff
  w.Flush();
}
2 голосов
/ 12 апреля 2011

Вы закрываете StreamWriter после того, как закончите писать?Вы можете попробовать что-то вроде этого:

using(StreamWriter w = new StreamWriter(outFile))
{
    foreach(string x in xs)
    {
        if(Checker.check(x, speller))
        {
            w.WriteLine("[{0}]", x);
            Console.WriteLine("[{0}]", x);
        }
    }
}

Оператор using закроет StreamWriter (вызывая метод Dispose для StreamWriter) после выполнения кода внутри.

...