Как легко рассчитать баллы читабельности или как написать для этого функцию? - PullRequest
0 голосов
/ 07 июля 2019

Мне нужно рассчитать показатель читабельности текстового документа.Есть ли пакет или встроенная функция.Все в Интернете кажется слишком сложным.Может ли кто-нибудь помочь мне с этим или как написать свою собственную функцию?

Я сделал предварительную обработку текста, вычислил tfidf документа, но я хочу найти показатель читаемости или индекс тумана документа.Я пытался использовать код, доступный на другой платформе, но он не работал

def text_process(mess):

    nopunc = [char for char in mess if char not in string.punctuation]

    #nopunc = [char for char in mess if char not in string.punctuation]

    nopunc = ''.join(nopunc)

    text = [word for word in tokens if word not in stops]

    text = [wl.lemmatize(word) for word in mess]

    return [word for word in nopunc.split() if word.lower() not in stopwords.words('english')]

from sklearn.feature_extraction.text import TfidfVectorizer

import pandas as pd

vect = TfidfVectorizer()

tfidf_matrix = vect.fit_transform(df["comments"].head(10000))

df1 = pd.DataFrame(tfidf_matrix.toarray(),columns=vect.get_feature_names())

print(df1)      

Я не знаю, как получить желаемые результаты оценки читабельности.Буду признателен, если кто-нибудь поможет мне

1 Ответ

0 голосов
/ 08 июля 2019

Вы можете использовать automated_readability_index() из textstat, чтобы получить желаемый результат

import textstat

text = 'your text'

score = textstat.automated_readability_index(text)

print (score)

Вывод:

-1.7

Чем выше score, тем лучше текстis.

ИЛИ вы также можете попробовать использовать flesch_reading_ease() из textstat, я нашел это полезным для моей nlp связанной задачи (оценка уровня разговора бота)

Для получения дополнительной информации здесь текстовая документация .

...