Получить отфильтрованный список файлов в каталоге - PullRequest
225 голосов
/ 09 февраля 2010

Я пытаюсь получить список файлов в каталоге, используя Python, но мне не нужен список ВСЕХ файлов.

Что мне по сути нужно, так это возможность делать что-то вроде следующего, но использовать Python и не выполнять ls.

ls 145592*.jpg

Если для этого нет встроенного метода, я сейчас подумываю написать цикл for для итерации результатов os.listdir() и добавления всех соответствующих файлов в новый список.

Однако в этом каталоге много файлов, и поэтому я надеюсь, что есть более эффективный метод (или встроенный метод).

Ответы [ 11 ]

316 голосов
/ 09 февраля 2010
108 голосов
/ 09 февраля 2010

glob.glob() определенно способ сделать это (согласно Игнасио). Однако, если вам нужно более сложное сопоставление, вы можете сделать это с использованием списка и re.match(), что-то вроде этого:

files = [f for f in os.listdir('.') if re.match(r'[0-9]+.*\.jpg', f)]

Более гибкий, но, как вы заметили, менее эффективный.

36 голосов
/ 13 января 2014

Не усложняйте:

import os
relevant_path = "[path to folder]"
included_extensions = ['jpg','jpeg', 'bmp', 'png', 'gif']
file_names = [fn for fn in os.listdir(relevant_path)
              if any(fn.endswith(ext) for ext in included_extensions)]

Я предпочитаю эту форму составления списков, потому что она хорошо читается на английском языке.

Я читаю четвертую строку как: Для каждого fn в os.listdir для моего пути, дайте мне только те, которые соответствуют любому из моих включенных расширений.

Для начинающих программистов на Python может быть трудно привыкнуть к использованию списочных представлений для фильтрации, и это может иметь некоторые накладные расходы памяти для очень больших наборов данных, но для перечисления каталога и других простых задач фильтрации строк, приводят к пониманию списков для более чистого документируемого кода.

Единственное, что есть в этом дизайне, это то, что он не защищает вас от ошибки при передаче строки вместо списка. Например, если вы случайно конвертируете строку в список и в конечном итоге проверяете все символы строки, вы можете получить массу ложных срабатываний.

Но лучше иметь проблему, которую легко решить, чем решение, которое трудно понять.

30 голосов
/ 28 января 2016

Другой вариант:

>>> import os, fnmatch
>>> fnmatch.filter(os.listdir('.'), '*.py')
['manage.py']

https://docs.python.org/3/library/fnmatch.html

8 голосов
/ 12 ноября 2016

Предварительный код

import glob
import fnmatch
import pathlib
import os

pattern = '*.py'
path = '.'

Раствор 1 - используйте "glob"

# lookup in current dir
glob.glob(pattern)

In [2]: glob.glob(pattern)
Out[2]: ['wsgi.py', 'manage.py', 'tasks.py']

Решение 2 - используйте "os" + "fnmatch"

Вариант 2.1 - Поиск в текущем каталоге

# lookup in current dir
fnmatch.filter(os.listdir(path), pattern)

In [3]: fnmatch.filter(os.listdir(path), pattern)
Out[3]: ['wsgi.py', 'manage.py', 'tasks.py']

вариант 2.2 - рекурсивный поиск

# lookup recursive
for dirpath, dirnames, filenames in os.walk(path):

    if not filenames:
        continue

    pythonic_files = fnmatch.filter(filenames, pattern)
    if pythonic_files:
        for file in pythonic_files:
            print('{}/{}'.format(dirpath, file))

Результат

./wsgi.py
./manage.py
./tasks.py
./temp/temp.py
./apps/diaries/urls.py
./apps/diaries/signals.py
./apps/diaries/actions.py
./apps/diaries/querysets.py
./apps/library/tests/test_forms.py
./apps/library/migrations/0001_initial.py
./apps/polls/views.py
./apps/polls/formsets.py
./apps/polls/reports.py
./apps/polls/admin.py

Решение 3 - используйте "pathlib"

# lookup in current dir
path_ = pathlib.Path('.')
tuple(path_.glob(pattern))

# lookup recursive
tuple(path_.rglob(pattern))

Примечания:

  1. Проверено на Python 3.4
  2. Модуль "pathlib" был добавлен только в Python 3.4
  3. В Python 3.5 добавлена ​​функция рекурсивного поиска с glob.glob https://docs.python.org/3.5/library/glob.html#glob.glob. Поскольку на моей машине установлен Python 3.4, я не проверял это.
8 голосов
/ 09 февраля 2010

используйте os.walk для рекурсивного перечисления ваших файлов

import os
root = "/home"
pattern = "145992"
alist_filter = ['jpg','bmp','png','gif'] 
path=os.path.join(root,"mydir_to_scan")
for r,d,f in os.walk(path):
    for file in f:
        if file[-3:] in alist_filter and pattern in file:
            print os.path.join(root,file)
5 голосов
/ 31 марта 2019

Фильтр с glob модулем:

Импорт глобуса

import glob

Wild Card:

files=glob.glob("data/*")
print(files)

Out:

['data/ks_10000_0', 'data/ks_1000_0', 'data/ks_100_0', 'data/ks_100_1',
'data/ks_100_2', 'data/ks_106_0', 'data/ks_19_0', 'data/ks_200_0', 'data/ks_200_1', 
'data/ks_300_0', 'data/ks_30_0', 'data/ks_400_0', 'data/ks_40_0', 'data/ks_45_0', 
'data/ks_4_0', 'data/ks_500_0', 'data/ks_50_0', 'data/ks_50_1', 'data/ks_60_0', 
'data/ks_82_0', 'data/ks_lecture_dp_1', 'data/ks_lecture_dp_2']

Расширение Fiter .txt:

files = glob.glob("/home/ach/*/*.txt")

Один символ

glob.glob("/home/ach/file?.txt")

Количество диапазонов

glob.glob("/home/ach/*[0-9]*")

Диапазоны алфавита

glob.glob("/home/ach/[a-c]*")
2 голосов
/ 19 ноября 2016
import os

dir="/path/to/dir"
[x[0]+"/"+f for x in os.walk(dir) for f in x[2] if f.endswith(".jpg")]

Это даст вам список файлов JPG с их полным путем. Вы можете заменить x[0]+"/"+f на f только для имен файлов. Вы также можете заменить f.endswith(".jpg") на любое строковое условие.

2 голосов
/ 30 мая 2014

Вам также может понравиться более высокоуровневый подход (я реализовал и упаковал как findtools ):

from findtools.find_files import (find_files, Match)


# Recursively find all *.txt files in **/home/**
txt_files_pattern = Match(filetype='f', name='*.txt')
found_files = find_files(path='/home', match=txt_files_pattern)

for found_file in found_files:
    print found_file

можно установить с

pip install findtools
1 голос
/ 22 марта 2018

Имена файлов с расширениями "jpg" и "png" в "path / to / images":

import os
accepted_extensions = ["jpg", "png"]
filenames = [fn for fn in os.listdir("path/to/images") if fn.split(".")[-1] in accepted_extensions]
...