У меня большой одноязычный корпус Unicode, содержащий более 100 миллионов слов в текстовом файле размером 1,7 ГБ.Теперь мне нужно найти частоту каждого слова в этом корпусе, чтобы я мог найти 20 наиболее часто встречающихся и 20 наименее часто встречающихся слов в корпусе.Например, (пример приведен на шведском, а не на бенгальском языке, для простоты понимания)
Корпус:
Джаг Харт Этст Стортfält jag.
Частота слова:
jag 3
har 2
ett 2
stort 2
hus 1
fält 1
Решение:
чаще всего:
jag 3
har 2
Наименее частые:
hus 1
fält 1
НО, , когда я пытался использовать базу данных mysql для хранения новых слов из корпуса и увеличения их частоты каждый раз на единицу.так что, наконец, я могу получить слова с их частотой.однако, потребовалось 2 дня, чтобы завершить даже 10% корпуса.Я попробовал другой способ, сохранив текстовый файл, чтобы вести учет частоты каждого слова.Однако, это терпит неудачу из-за того, что система не работает для слов Unicode.Пожалуйста, предложите мне простой и быстрый способ рассчитывать на это.