Мне нужно рассчитать показатель читабельности текстового документа.Есть ли пакет или встроенная функция.Все в Интернете кажется слишком сложным.Может ли кто-нибудь помочь мне с этим или как написать свою собственную функцию?
Я сделал предварительную обработку текста, вычислил tfidf документа, но я хочу найти показатель читаемости или индекс тумана документа.Я пытался использовать код, доступный на другой платформе, но он не работал
def text_process(mess):
nopunc = [char for char in mess if char not in string.punctuation]
#nopunc = [char for char in mess if char not in string.punctuation]
nopunc = ''.join(nopunc)
text = [word for word in tokens if word not in stops]
text = [wl.lemmatize(word) for word in mess]
return [word for word in nopunc.split() if word.lower() not in stopwords.words('english')]
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
vect = TfidfVectorizer()
tfidf_matrix = vect.fit_transform(df["comments"].head(10000))
df1 = pd.DataFrame(tfidf_matrix.toarray(),columns=vect.get_feature_names())
print(df1)
Я не знаю, как получить желаемые результаты оценки читабельности.Буду признателен, если кто-нибудь поможет мне