Я хочу найти частоту различных языков в наборе данных твита. В конце концов, я хочу использовать только твиты на английском языке, но хочу также узнать частоты других языков.
Я обнаружил язык твитов в своем наборе данных, используя langdetect, и теперь я хочу посчитать частоту каждого языка. Это мой код для определения языка:
from langdetect import detect
import pandas as pd
data_path = "./output_1.csv"
df = pd.read_csv(data_path, index_col=0)
for index, row in df.iterrows():
print(detect(row['text']))
if detect(row['text']) == "en":
print(row['text'])
Я хотел использовать количество свойств списка для подсчета частот:
using the list i = ['en','fr','es','it','cs','pt']
d = {x:i.count(x) for x in i}
print d
Как использовать свойство count в данных, полученных с помощью langdetect?