способ чтения нескольких файлов .txt в нескольких категориях папок в Python - PullRequest
0 голосов
/ 12 февраля 2019

Я новичок в Python и пытаюсь прочитать набор данных .txt файлов, хранящихся в нескольких иерархиях папок.Структура папок:

-Folder1 
   -Category1_Folder
        -file1.txt
   -Category2_Folder
        -file1.txt
        -file2.txt and so on...

Категории имеют значение.Мне нужно иметь возможность определить, какой файл из какой категории.Затем мне нужно удалить стоп-слова и выполнить извлечение функций с помощью TfIDf.Какой самый простой способ сделать что-то подобное?

1 Ответ

0 голосов
/ 12 февраля 2019

Я рекомендую os.walk.

Если у вас есть каталоги типа:

project/
- folder1/
  - file1.png
  - file2.jpg
- folder2/
  - file3.zip

Тогда пример кода:

import os

for dirpath, dirnames, filenames in os.walk(os.getcwd()):  # getcwd() for current work dir
  print(dirpath, dirnames, filenames)

Вывод:

/project ['folder1', 'folder2'] []
/project/folder1 [] ['file1.png', 'file2.jpg']
/project/folder2 [] ['file3.zip']

Если вам нужна папка, имя файла, используйте для цикла:

for dirname in dirnames:
  for filename in filenames:
    # split dirname for categories
    # and so on..
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...