Question

У меня есть скрипт, который выполняет базовую c очистку текста и токенизацию, а затем подсчет и сортировку частоты слов. Я могу заставить скрипт работать с отдельными файлами, но мне нужна помощь для его реализации во всем каталоге. Короче говоря, я хотел бы использовать этот код для подсчета частоты глобальных слов во всем каталоге (не возвращать отдельные значения для каждого файла).

Вот мой код:

import re
import string
from collections import Counter

file = open("german/test/polarity/positive/0.txt", mode="r", encoding="utf-8")
read_file = file.read()

#remove punctuation
translation = str.maketrans("","", string.punctuation)
stripped_file = read_file.translate(translation)

##lowercase
file_clean = stripped_file.lower()

##tokenize
file_tokens = file_clean.split()

##word count and sort
def word_count(file_tokens):
    for word in file_tokens:
        count = Counter(file_tokens)
    return count

print(word_count(file_tokens))

Personman · Answer 1 · 09 января 2020

Вы, вероятно, ищете os.walk () .

Переместите свой код в функцию, а затем используйте

for subdir, dirs, files in os.walk(rootdir):
    for file in files:

для вызова функции на каждый файл

adlopez15 · Answer 2 · 09 января 2020

Для Python => 3,6 * os


directory = os.fsencode(directory_in_str)

for file in os.listdir(directory):
     filename = os.fsdecode(file)
     if filename.endswith(".txt"): 
         # print(os.path.join(directory, filename))
         continue
     else:
         continue

См. Здесь

Как запустить скрипт для всех файлов в каталоге?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как запустить скрипт для всех файлов в каталоге?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов