Question

Под форматированием текста я подразумевал нечто более сложное.

Сначала я начал вручную добавлять 5000 строк из текстового файла, для которого я задаю этот вопрос, в свой проект.

Текстовый файл имеет 5000 строк разной длины. Например:

1   1   ITEM_ETC_GOLD_01    골드(소)   xxx xxx xxx_TT_DESC 0   0   3   3   5   0   180000  3   0   1   0   0   255 1   1   0   0   0   0   0   0   0   0   0   0   -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_money_small.bsr    xxx xxx xxx 0   2   0   0   1   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1   표현할 골드의 양(param1이상) -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

1   4   ITEM_ETC_HP_POTION_01   HP 회복 약초    xxx SN_ITEM_ETC_HP_POTION_01    SN_ITEM_ETC_HP_POTION_01_TT_DESC    0   0   3   3   1   1   180000  3   0   1   1   1   255 3   1   0   0   1   0   60  0   0   0   1   21  -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_bag.bsr    item\etc\hp_potion_01.ddj   xxx xxx 50  2   0   0   1   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 120 HP회복양   0   HP회복양(%)    0   MP회복양   0   MP회복양(%)    -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

1   5   ITEM_ETC_HP_POTION_02   HP 회복약 (소)  xxx SN_ITEM_ETC_HP_POTION_02    SN_ITEM_ETC_HP_POTION_02_TT_DESC    0   0   3   3   1   1   180000  3   0   1   1   1   255 3   1   0   0   1   0   110 0   0   0   2   39  -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_bag.bsr    item\etc\hp_potion_02.ddj   xxx xxx 50  2   0   0   2   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 220 HP회복양   0   HP회복양(%)    0   MP회복양   0   MP회복양(%)    -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

Текст между первым символом (1) и вторым символом (1/4/5) - это не пробел, это табуляция. В этом текстовом файле нет пробелов.

Что я хочу:

Я хочу получить второе целое число (в трех строках, которые я выложил выше, вторые целые числа 1,4 и 5) и строку в середине каждой строки, указывающую путь (начинается с «item \» и заканчивается расширением файла ".ddj").

Моя проблема:

Когда я гуглю "Форматирование текста C #" - все, что я получаю, это как открыть текстовый файл и как написать текстовый файл в C #. Я не знаю, как искать текст внутри текстового файла. Также я могу не искать первое целое число, потому что, если оно маленькое, как в трех строках, которые я выложил выше, я не смогу найти местоположение в другом месте, потому что, например, «1» может существовать в другом месте.

Мой вопрос:

Было бы лучше, если бы я написал программу, которая удаляла бы все, кроме того, что мне нужно.

Другой способ, которым я думаю, - это непосредственно искать внутри этого файла, но, как я уже упоминал выше, я могу получить неправильное местоположение второго целого числа, если оно слишком мало.

Пожалуйста, предложите что-нибудь, я не могу отформатировать все это вручную.

Samir Talwar · Answer 1 · 13 мая 2009

ОК, вот что мы делаем: открываем файл, читаем его построчно и разбиваем на вкладки. Затем мы берем второе целое число и перебираем все остальное, чтобы найти путь.

StreamReader reader = File.OpenText("filename.txt");
string line;
while ((line = reader.ReadLine()) != null) 
{
    string[] items = line.Split('\t');
    int myInteger = int.Parse(items[1]);   // Here's your integer.

    // Now let's find the path.
    string path = null;
    foreach (string item in items) 
    {
        if (item.StartsWith("item\\") && item.EndsWith(".ddj"))
            path = item;
    }

    // At this point, `myInteger` and `path` contain the values we want
    // for the current line. We can then store those values or print them,
    // or anything else we like.
}

Samir Talwar · Answer 2 · 13 мая 2009

Другое решение, на этот раз использующее регулярные выражения:

using System.Text.RegularExpressions;

...

Regex parts = new Regex(@"^\d+\t(\d+)\t.+?\t(item\\[^\t]+\.ddj)");

StreamReader reader = FileInfo.OpenText("filename.txt");
string line;
while ((line = reader.ReadLine()) != null) {
    Match match = parts.Match(line);
    if (match.Success) {
        int number = int.Parse(match.Group(1).Value);
        string path = match.Group(2).Value;

        // At this point, `number` and `path` contain the values we want
        // for the current line. We can then store those values or print them,
        // or anything else we like.
    }
}

Это выражение немного сложное, поэтому здесь оно разбито:

^        Start of string
\d+      "\d" means "digit" - 0-9. The "+" means "one or more."
         So this means "one or more digits."
\t       This matches a tab.
(\d+)    This also matches one or more digits. This time, though, we capture it
         using brackets. This means we can access it using the Group method.
\t       Another tab.
.+?      "." means "anything." So "one or more of anything". In addition, it's lazy.
         This is to stop it grabbing everything in sight - it'll only grab as much
         as it needs to for the regex to work.
\t       Another tab.

(item\\[^\t]+\.ddj)
    Here's the meat. This matches: "item\<one or more of anything but a tab>.ddj"

erikkallen · Answer 3 · 13 мая 2009

Вы можете сделать что-то вроде:

using (TextReader rdr = OpenYourFile()) {
    string line;
    while ((line = rdr.ReadLine()) != null) {
        string[] fields = line.Split('\t'); // THIS LINE DOES THE MAGIC
        int theInt = Convert.ToInt32(fields[1]);
    }
}

Причина, по которой вы не нашли релевантного результата при поиске «форматирования», заключается в том, что выполняемая вами операция называется «анализом».

Mark Green · Answer 4 · 13 мая 2009

Один способ, который я нашел действительно полезным в подобных ситуациях, - это пойти в старое русло и использовать поставщика Jet OLEDB вместе с файлом schema.ini для чтения больших файлов с разделителями табуляции при использовании ADO.Net. Очевидно, что этот метод действительно полезен, только если вы знаете формат импортируемого файла.

public void ImportCsvFile(string filename)
{
    FileInfo file = new FileInfo(filename);

    using (OleDbConnection con = 
            new OleDbConnection("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=\"" +
            file.DirectoryName + "\";
            Extended Properties='text;HDR=Yes;FMT=TabDelimited';"))
    {
        using (OleDbCommand cmd = new OleDbCommand(string.Format
                                  ("SELECT * FROM [{0}]", file.Name), con))
        {
            con.Open();

            // Using a DataReader to process the data
            using (OleDbDataReader reader = cmd.ExecuteReader())
            {
                while (reader.Read())
                {
                    // Process the current reader entry...
                }
            }

            // Using a DataTable to process the data
            using (OleDbDataAdapter adp = new OleDbDataAdapter(cmd))
            {
                DataTable tbl = new DataTable("MyTable");
                adp.Fill(tbl);

                foreach (DataRow row in tbl.Rows)
                {
                    // Process the current row...
                }
            }
        }
    }
}

Когда у вас есть данные в хорошем формате, например, в виде данных, отфильтровывать нужные вам данные становится довольно тривиально.

Vin · Answer 5 · 13 мая 2009

Как уже упоминалось, я настоятельно рекомендую использовать регулярное выражение (в System.Text) для выполнения такой работы.

В комбинации со сплошным инструментом, таким как RegexBuddy , вы смотрите на обработку любых сложных ситуаций анализа текстовых записей, а также на быстрое получение результатов. Инструмент делает его очень простым.

Надеюсь, это поможет.

Justin Ethier · Answer 6 · 13 мая 2009

Вы можете открыть файл и использовать StreamReader.ReadLine, чтобы прочитать файл построчно. Затем вы можете использовать String.Split, чтобы разбить каждую строку на части (используйте разделитель \ t), чтобы извлечь второе число.

Поскольку количество элементов различно, вам нужно искать строку для шаблона 'item \ *. Ddj'.

Чтобы удалить элемент, вы можете (например) сохранить все содержимое файла в памяти и записать новый файл, когда пользователь нажимает «Сохранить».

Marc Vitalis · Answer 7 · 13 мая 2009

Попробуйте регулярные выражения. Вы можете найти определенный шаблон в вашем тексте и заменить его на то, что вы хотите. Я не могу дать вам точный код прямо сейчас, но вы можете проверить свои выражения, используя это.

http://www.radsoftware.com.au/regexdesigner/

Как разобрать текстовый файл с C #

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разобрать текстовый файл с C #

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы