C # Очистить имя файла - PullRequest
151 голосов
/ 21 ноября 2008

Недавно я переместил несколько файлов MP3 из разных мест в хранилище. Я создавал новые имена файлов, используя теги ID3 (спасибо, TagLib-Sharp!), И заметил, что получаю System.NotSupportedException:

"Формат указанного пути не поддерживается."

Это было сгенерировано либо File.Copy(), либо Directory.CreateDirectory().

Это не заняло много времени, чтобы понять, что мои имена файлов необходимо очистить. Итак, я сделал очевидную вещь:

public static string SanitizePath_(string path, char replaceChar)
{
    string dir = Path.GetDirectoryName(path);
    foreach (char c in Path.GetInvalidPathChars())
        dir = dir.Replace(c, replaceChar);

    string name = Path.GetFileName(path);
    foreach (char c in Path.GetInvalidFileNameChars())
        name = name.Replace(c, replaceChar);

    return dir + name;
}

К моему удивлению, я продолжал получать исключения. Оказалось, что ':' не входит в набор Path.GetInvalidPathChars(), потому что он действителен в корне пути. Я полагаю, это имеет смысл - но это должно быть довольно распространенной проблемой. У кого-нибудь есть какой-нибудь короткий код, который очищает путь? Самое тщательное, что я придумал, но такое ощущение, что это, вероятно, излишество.

    // replaces invalid characters with replaceChar
    public static string SanitizePath(string path, char replaceChar)
    {
        // construct a list of characters that can't show up in filenames.
        // need to do this because ":" is not in InvalidPathChars
        if (_BadChars == null)
        {
            _BadChars = new List<char>(Path.GetInvalidFileNameChars());
            _BadChars.AddRange(Path.GetInvalidPathChars());
            _BadChars = Utility.GetUnique<char>(_BadChars);
        }

        // remove root
        string root = Path.GetPathRoot(path);
        path = path.Remove(0, root.Length);

        // split on the directory separator character. Need to do this
        // because the separator is not valid in a filename.
        List<string> parts = new List<string>(path.Split(new char[]{Path.DirectorySeparatorChar}));

        // check each part to make sure it is valid.
        for (int i = 0; i < parts.Count; i++)
        {
            string part = parts[i];
            foreach (char c in _BadChars)
            {
                part = part.Replace(c, replaceChar);
            }
            parts[i] = part;
        }

        return root + Utility.Join(parts, Path.DirectorySeparatorChar.ToString());
    }

Будем весьма благодарны за любые улучшения, которые сделают эту функцию более быстрой и менее барочной.

Ответы [ 12 ]

285 голосов
/ 11 мая 2009

Чтобы очистить имя файла, вы можете сделать это

private static string MakeValidFileName( string name )
{
   string invalidChars = System.Text.RegularExpressions.Regex.Escape( new string( System.IO.Path.GetInvalidFileNameChars() ) );
   string invalidRegStr = string.Format( @"([{0}]*\.+$)|([{0}]+)", invalidChars );

   return System.Text.RegularExpressions.Regex.Replace( name, invalidRegStr, "_" );
}
99 голосов
/ 29 ноября 2012

Более короткое решение:

var invalids = System.IO.Path.GetInvalidFileNameChars();
var newName = String.Join("_", origFileName.Split(invalids, StringSplitOptions.RemoveEmptyEntries) ).TrimEnd('.');
67 голосов
/ 17 октября 2012

Основываясь на превосходном ответе Андре, но принимая во внимание комментарий Спуда к зарезервированным словам, я сделал эту версию:

/// <summary>
/// Strip illegal chars and reserved words from a candidate filename (should not include the directory path)
/// </summary>
/// <remarks>
/// /309625/c-ochistit-imya-faila
/// </remarks>
public static string CoerceValidFileName(string filename)
{
    var invalidChars = Regex.Escape(new string(Path.GetInvalidFileNameChars()));
    var invalidReStr = string.Format(@"[{0}]+", invalidChars);

    var reservedWords = new []
    {
        "CON", "PRN", "AUX", "CLOCK$", "NUL", "COM0", "COM1", "COM2", "COM3", "COM4",
        "COM5", "COM6", "COM7", "COM8", "COM9", "LPT0", "LPT1", "LPT2", "LPT3", "LPT4",
        "LPT5", "LPT6", "LPT7", "LPT8", "LPT9"
    };

    var sanitisedNamePart = Regex.Replace(filename, invalidReStr, "_");
    foreach (var reservedWord in reservedWords)
    {
        var reservedWordPattern = string.Format("^{0}\\.", reservedWord);
        sanitisedNamePart = Regex.Replace(sanitisedNamePart, reservedWordPattern, "_reservedWord_.", RegexOptions.IgnoreCase);
    }

    return sanitisedNamePart;
}

А это мои юнит-тесты

[Test]
public void CoerceValidFileName_SimpleValid()
{
    var filename = @"thisIsValid.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual(filename, result);
}

[Test]
public void CoerceValidFileName_SimpleInvalid()
{
    var filename = @"thisIsNotValid\3\\_3.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid_3__3.txt", result);
}

[Test]
public void CoerceValidFileName_InvalidExtension()
{
    var filename = @"thisIsNotValid.t\xt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid.t_xt", result);
}

[Test]
public void CoerceValidFileName_KeywordInvalid()
{
    var filename = "aUx.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("_reservedWord_.txt", result);
}

[Test]
public void CoerceValidFileName_KeywordValid()
{
    var filename = "auxillary.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("auxillary.txt", result);
}
28 голосов
/ 24 апреля 2013
string clean = String.Concat(dirty.Split(Path.GetInvalidFileNameChars()));
4 голосов
/ 29 июля 2013

Я использую метод System.IO.Path.GetInvalidFileNameChars() для проверки недопустимых символов, и у меня нет проблем.

Я использую следующий код:

foreach( char invalidchar in System.IO.Path.GetInvalidFileNameChars())
{
    filename = filename.Replace(invalidchar, '_');
}
3 голосов
/ 20 мая 2014

Я хотел каким-то образом сохранить символы, а не просто заменить символ подчеркиванием.

Один из способов, которым я думал, состоял в том, чтобы заменить персонажей похожими персонажами, которые (в моей ситуации) вряд ли будут использоваться в качестве обычных символов. Таким образом, я взял список недопустимых символов и нашел, что они похожи.

Ниже приведены функции для кодирования и декодирования с использованием аналогичных символов.

Этот код не включает полный список всех символов System.IO.Path.GetInvalidFileNameChars (). Таким образом, вы можете расширить или использовать замену подчеркивания для любых оставшихся символов.

private static Dictionary<string, string> EncodeMapping()
{
    //-- Following characters are invalid for windows file and folder names.
    //-- \/:*?"<>|
    Dictionary<string, string> dic = new Dictionary<string, string>();
    dic.Add(@"\", "Ì"); // U+OOCC
    dic.Add("/", "Í"); // U+OOCD
    dic.Add(":", "¦"); // U+00A6
    dic.Add("*", "¤"); // U+00A4
    dic.Add("?", "¿"); // U+00BF
    dic.Add(@"""", "ˮ"); // U+02EE
    dic.Add("<", "«"); // U+00AB
    dic.Add(">", "»"); // U+00BB
    dic.Add("|", "│"); // U+2502
    return dic;
}

public static string Escape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Key, replace.Value);
    }

    //-- handle dot at the end
    if (name.EndsWith(".")) name = name.CropRight(1) + "°";

    return name;
}

public static string UnEscape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Value, replace.Key);
    }

    //-- handle dot at the end
    if (name.EndsWith("°")) name = name.CropRight(1) + ".";

    return name;
}

Вы можете выбрать своих любимых. Я использовал приложение «Карта персонажей» в Windows, чтобы выбрать мое %windir%\system32\charmap.exe

По мере внесения корректировок через обнаружение я буду обновлять этот код.

2 голосов
/ 30 апреля 2012

Я имел успех с этим в прошлом.

Хороший, короткий и статичный: -)

    public static string returnSafeString(string s)
    {
        foreach (char character in Path.GetInvalidFileNameChars())
        {
            s = s.Replace(character.ToString(),string.Empty);
        }

        foreach (char character in Path.GetInvalidPathChars())
        {
            s = s.Replace(character.ToString(), string.Empty);
        }

        return (s);
    }
2 голосов
/ 22 ноября 2008

Я думаю, проблема в том, что вы сначала вызываете Path.GetDirectoryName на плохой строке. Если в нем есть символы не из имен файлов, .Net не может определить, какие части строки являются каталогами и выбрасывает. Вы должны сделать сравнение строк.

Если предположить, что это только имя файла, а не весь путь, попробуйте следующее:

public static string SanitizePath(string path, char replaceChar)
{
    int filenamePos = path.LastIndexOf(Path.DirectorySeparatorChar) + 1;
    var sb = new System.Text.StringBuilder();
    sb.Append(path.Substring(0, filenamePos));
    for (int i = filenamePos; i < path.Length; i++)
    {
        char filenameChar = path[i];
        foreach (char c in Path.GetInvalidFileNameChars())
            if (filenameChar.Equals(c))
            {
                filenameChar = replaceChar;
                break;
            }

        sb.Append(filenameChar);
    }

    return sb.ToString();
}
1 голос
/ 19 ноября 2018

здесь много рабочих решений. просто для полноты, вот подход, который не использует регулярные выражения, но использует LINQ:

var invalids = Path.GetInvalidFileNameChars();
filename = invalids.Aggregate(filename, (current, c) => current.Replace(c, '_'));

Кроме того, это очень короткое решение;)

1 голос
/ 21 мая 2015

Вот эффективный метод расширения отложенной загрузки, основанный на коде Андре:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace LT
{
    public static class Utility
    {
        static string invalidRegStr;

        public static string MakeValidFileName(this string name)
        {
            if (invalidRegStr == null)
            {
                var invalidChars = System.Text.RegularExpressions.Regex.Escape(new string(System.IO.Path.GetInvalidFileNameChars()));
                invalidRegStr = string.Format(@"([{0}]*\.+$)|([{0}]+)", invalidChars);
            }

            return System.Text.RegularExpressions.Regex.Replace(name, invalidRegStr, "_");
        }
    }
}
...