Самый быстрый способ подсчитать частоту слов в очень большом корпусе Unicode? - PullRequest
0 голосов
/ 27 января 2019

У меня большой одноязычный корпус Unicode, содержащий более 100 миллионов слов в текстовом файле размером 1,7 ГБ.Теперь мне нужно найти частоту каждого слова в этом корпусе, чтобы я мог найти 20 наиболее часто встречающихся и 20 наименее часто встречающихся слов в корпусе.Например, (пример приведен на шведском, а не на бенгальском языке, для простоты понимания)

Корпус:

Джаг Харт Этст Стортfält jag.

Частота слова:

jag 3

har 2

ett 2

stort 2

hus 1

fält 1

Решение:

чаще всего:

jag 3

har 2

Наименее частые:

hus 1

fält 1

НО, , когда я пытался использовать базу данных mysql для хранения новых слов из корпуса и увеличения их частоты каждый раз на единицу.так что, наконец, я могу получить слова с их частотой.однако, потребовалось 2 дня, чтобы завершить даже 10% корпуса.Я попробовал другой способ, сохранив текстовый файл, чтобы вести учет частоты каждого слова.Однако, это терпит неудачу из-за того, что система не работает для слов Unicode.Пожалуйста, предложите мне простой и быстрый способ рассчитывать на это.

...