Question

Я хочу найти частоту различных языков в наборе данных твита. В конце концов, я хочу использовать только твиты на английском языке, но хочу также узнать частоты других языков.

Я обнаружил язык твитов в своем наборе данных, используя langdetect, и теперь я хочу посчитать частоту каждого языка. Это мой код для определения языка:

from langdetect import detect    
import pandas as pd
data_path = "./output_1.csv"
df =  pd.read_csv(data_path, index_col=0)

for index, row in df.iterrows():
    print(detect(row['text']))
    if detect(row['text']) == "en":
        print(row['text'])

Я хотел использовать количество свойств списка для подсчета частот:

using the list i = ['en','fr','es','it','cs','pt']
d = {x:i.count(x) for x in i}
print d

Как использовать свойство count в данных, полученных с помощью langdetect?

Подсчет частот языка в кадре данных панд с помощью langdetect

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Подсчет частот языка в кадре данных панд с помощью langdetect

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы