Вероятность триграммы в огромном текстовом файле - PullRequest
0 голосов
/ 23 октября 2018

У меня большой бенгальский одноязычный корпус, состоящий из более 100 миллионов бенгальских предложений.Корпус в формате .txt, размер файла 1,8 ГБ.Теперь, чтобы построить бенгальскую проверку грамматики, мне нужно использовать этот огромный корпус для вычисления вероятности языка триграмм.Тем не менее, кажется, что это занимает огромное количество времени, чтобы найти вероятность Trigram в таком большом файле.Пожалуйста, предложите, как решить эту проблему и какие методы я должен использовать в этом случае.Должен ли я использовать php или python для этого?У меня достаточно знаний в обоих.TIA

1 Ответ

0 голосов
/ 23 октября 2018

Если вы уже знаете , что вам будет сложно заставить это работать, зачем усложнять свою жизнь и использовать Python или даже хуже, PHP?

Это довольно простая задача:считая.

То, что на самом деле - это то, что вы можете реализовать на более эффективном для памяти и более быстром языке, таком как C, если вам нужно, чтобы он был быстрым.Например, целое число (а вам понадобится много) в C составляет 4 байта, в Python вам нужно 12, и, скорее всего, они будут храниться в другом месте памяти, поэтому у вас есть еще 8, просто чтобы указать, где находится целое число.Подход на чистом Python потребует в 3–4 раза больше памяти, чем на C-версии.Все эти косвенные изменения памяти также снижают вашу производительность.

Затем вы можете по-прежнему работать с Python для последующих шагов.

...