Возникла проблема с модульностью, я не могу заставить мою программу работать правильно - PullRequest
0 голосов
/ 01 ноября 2018

Я создаю гистограмму, которая показывает мне слово и частоту каждого слова в текстовом файле.

Я просмотрел свой предыдущий код, который работал, и попытался сделать его модульным. Это было практикой для класса, так как в будущем мы будем создавать генератор твитов. Где-то я делаю что-то не так, но не вижу, что это за жизнь для меня.

Я должен был создать из простого текстового файла:

  1. Список списков
  2. Список кортежей
  3. Словарь пар ключ-значение

Вот что у меня есть:

import re
import sys
import string

def read_file(file):
    # first_list = [] ### Unsure if I should actually keep these in here.
    # second_list = []###
    document_text = open(file, 'r')
    text_string = document_text.read().lower()
    match_pattern = re.findall(r'\b[a-z]{1, 15}\b', text_string)
    return match_pattern
#----------LIST_OF_LISTS---------------
def list_of_lists(match_pattern):
    read_file(file)
    match_pattern.sort()
    list_array = []
    count = 0
    index = None
    for word in match_pattern:
        if word == index:
            count += 1
        else:
            list_array.append([index, count])
            index = word
            count = 1
    else:

        list_array([index, count])
        list_array.pop(0)
    return str(list_array)
#------END OF LIST_OF_LISTS-------------        

#----------LIST_OF_TUPLES---------------
def list_of_tuples(match_pattern):
    read_file(file)
    frequency = {}
    first_list = []
    second_list = []
    unique_count = 0
    for word in match_pattern:
        count = frequency.get(word, 0)
        frequency[word] = count + 1
        first_list.append(word)
        if int(frequency[word]) == 1:
            unique_count += 1

    for word in match_pattern:
        second_list.append(int(frequency[word]))    

    zipped = zip(first_list, second_list)
    return list(set((zipped)))
    return str("There are " + str(unique_count) + " words in this file")
#----------END OF LIST_OF_TUPLES---------


#----------DICTIONARY FUNCTION-----------
def dictionary_histogram(match_pattern):
    dict_histo = {}
    for word in match_pattern:
        if word not in dict_histo:
            dict_histo[word] = 1
        else:
            dict_histo[word] += 1
    return str(dict_histo)

    def unique_word_dict(histogram):
        ''' Takes the histogram and returns the amount of unique words withi it.'''
        return len(histogram.keys())

    def frequency(histogram, word):
        '''takes in the histogram and a word, then returns a value of the word if the
        key exists within the dictionary, else return 0'''
        if word in histogram:
            return str(histogram[word])
        else:
            return str(0)
#------------End of Dictionary-----------------
# 
# def unique_word(histogram):
#     ''' Takes the histogram and returns the amount of unique words withi it.'''
#     return len(histogram)
# 
# def frequency(word, histogram):
#     '''takes a histogram and a word, then returns the value of the word.'''
#     return histogram[word]



if __name__ == '__main__':
    file = str(sys.argv[1])
    read_file(file)
    list_of_tuples(match_pattern)

Хотя, я верю, что мой if name == ' main ': не так, но я попробовал несколько разных вариантов, и мне казалось, что ничего не работает.

Я также пытался изменить некоторые вещи, но это тоже не сработало.

import re
import sys
import string

def read_file(file):
    document_text = open(file, 'r')
    text_string = document_text.read().lower()
    # match_pattern = re.findall(r'\b[a-z]{1, 15}\b', text_string)   ### Think I should move this to the actual list function maybe??? 
    ### I originally had it return match_pattern and then I used match_pattern in my list functions i.e list_of_lists(match_pattern)
    document_text.close()
    return text_string
#----------LIST_OF_LISTS---------------
def list_of_lists(text_string):
    match_pattern = re.findall(r'\b[a-z]{1, 15}\b', text_string)
    # match_pattern.sort() #Maybe use this
    list_array = []
    count = 0
    index = None
    for word in match_pattern:
        if word == index:
            count += 1
        else:
            list_array.append([index, count])
            index = word
            count = 1
    else:

        list_array.append([index, count])
        list_array.pop(0)
    return str(list_array)
#------END OF LIST_OF_LISTS-------------        

#----------LIST_OF_TUPLES---------------
def list_of_tuples(text_string):
    match_pattern = re.findall(r'\b[a-z]{1, 15}\b', text_string)
    frequency = {}
    first_list = []
    second_list = []
    unique_count = 0
    for word in match_pattern:
        count = frequency.get(word, 0)
        frequency[word] = count + 1
        first_list.append(word)
        if int(frequency[word]) == 1:
            unique_count += 1

    for word in match_pattern:
        second_list.append(int(frequency[word]))    

    zipped = zip(first_list, second_list)
    # return list(set((zipped)))
    return str(list(set(zipped)))
    # return str("There are " + str(unique_count) + " words in this file")
#----------END OF LIST_OF_TUPLES---------


#----------DICTIONARY FUNCTION-----------
def dictionary_histogram(text_string):
    dict_histo = {}
    for word in match_pattern:
        if word not in dict_histo:
            dict_histo[word] = 1
        else:
            dict_histo[word] += 1
    return str(dict_histo)

    def unique_word_dict(histogram):
        ''' Takes the histogram and returns the amount of unique words withi it.'''
        return len(histogram.keys())

    def frequency(histogram, word):
        '''takes in the histogram and a word, then returns a value of the word if the
        key exists within the dictionary, else return 0'''
        if word in histogram:
            return str(histogram[word])
        else:
            return str(0)
#------------End of Dictionary-----------------
# 
# def unique_word(histogram):
#     ''' Takes the histogram and returns the amount of unique words withi it.'''
#     return len(histogram)
# 
# def frequency(word, histogram):
#     '''takes a histogram and a word, then returns the value of the word.'''
#     return histogram[word]

# read_file(file)
# list_of_tuples(read_file(file))
if __name__ == '__main__':
    file = str(sys.argv[1])
    # print(list_of_lists(read_file(file)))

1 Ответ

0 голосов
/ 01 ноября 2018

Я сделал 2 незначительные модификации вашего кода.

Во-первых. Я заменил регулярное выражение \b[a-z]{1, 15}\b на \b[a-z]+\b.

Во-вторых. Я изменил main suite:

if __name__ == '__main__':

    file = str(sys.argv[1])

    match_pattern = read_file(file)
    print(match_pattern)
    print()

    ans = list_of_tuples(match_pattern)
    print(ans)

Вывод для моего образца файла:

['asdf', 'asdf', 'asdf', 'sdf', 'asdf', 'asdf', 'asdfdf', 'asdfsdf', 'asdfasd', 'fas', 'dfa', 'sd', 'fass', 'dfafas', 'df', 'asdfsdf', 'asdfsdf', 'asdfdfa', 'sdf', 'asdfdf', 'asdfsdfas', 'dfasdf', 'asdfdfasdf', 'asdffas', 'dfasdffas', 'dfs', 'fas', 'sdf', 'asdfd', 'asdfsd', 'asfd', 'as', 'dfdfa', 'sddf', 'asd', 'fasdf', 'asdf', 'assdf', 'asdf', 'asdf', 'das', 'assdffa', 'sdf', 'asdf', 'asdf', 'assdf', 'asd', 'asd', 'asfdd', 'fasasdf', 'asdf', 'assdf', 'asdf', 'assd']

[('asdfsdfas', 1), ('dfafas', 1), ('dfasdffas', 1), ('asdf', 12), ('as', 1), ('dfasdf', 1), ('fasdf', 1), ('assd', 1), ('assdf', 3), ('dfs', 1), ('asdfdf', 2), ('asd', 3), ('df', 1), ('dfdfa', 1), ('fasasdf', 1), ('asdfsd', 1), ('asfd', 1), ('das', 1), ('asfdd', 1), ('asdffas', 1), ('sdf', 4), ('sddf', 1), ('dfa', 1), ('asdfdfasdf', 1), ('asdfsdf', 3), ('assdffa', 1), ('asdfd', 1), ('asdfasd', 1), ('sd', 1), ('fas', 2), ('asdfdfa', 1), ('fass', 1)]

Итак, программа запускается, и результат выглядит как какой-то законный результат.

...