Я задавал этот вопрос около месяца назад.Тем не менее, никто не дал ответа или даже комментария. Я повторяю вопрос, чтобы кто-то помог на этот раз.
У меня большой Unolode Одноязычный корпус состоит из более 100 миллионов слов в текстовом файлеразмер 1,7 ГБ.Теперь мне нужно найти частоту каждого слова в этом корпусе, чтобы я мог найти 20 наиболее часто встречающихся и 20 наименее часто встречающихся слов в корпусе.Например, (пример приведен на шведском, а не на бенгальском языке, для простоты понимания)
Корпус:
jag har ett stort hus också jag har ett stortfält jag.
Частота слова:
jag 3
har 2
ett 2
stort 2
hus 1
fält 1
Решение:
чаще всего:
jag 3
har 2
Наименее частые:
hus 1
fält 1
НО, , когда я пытался использовать базу данных mysql для хранения новых слов из корпуса и увеличения их частоты каждый раз на единицу.так что, наконец, я могу получить слова с их частотой.однако, потребовалось 2 дня, чтобы завершить даже 10% корпуса.Я попробовал другой способ, сохранив текстовый файл, чтобы вести учет частоты каждого слова.Однако, это терпит неудачу из-за того, что система не работает для слов Unicode.Пожалуйста, предложите мне простой и быстрый способ рассчитать это (может быть на PHP или PYTHON).