Я использую Dask для параллельных вычислений и хочу определить язык предложений в столбце, используя langdetect
. Тем не менее, я все еще не могу набрать скорость получения языка строк в столбце.
Ниже приведен мой код:
import dask.dataframe as dd
data = dd.read_csv('name.csv')# has a column called short_description
def some_fn(e):
return e['short_description'].apply(langdetect.detect)
data['Language'] = data.map_partitions(some_fn, meta='string')# adding a new column called Language.
Этот файл csav содержит 800000 строк, каждая из которых содержит ок. 20 слов длинных предложений.
Любое предложение, как я могу быстрее определить язык, потому что в настоящее время это занимает 2-3 часа.