Я недавно создал скрипт на python, который выполнял некоторые задачи обработки на естественном языке и довольно хорошо работал над решением моей проблемы.Но это заняло 9 часов.Сначала я исследовал использование hadoop, чтобы разбить проблему на этапы и, надеюсь, воспользоваться преимуществами масштабируемой параллельной обработки, которую я получу, используя Amazon Web Services.
Но мой друг отметил тот факт, что Hadoop действительнодля хранения больших объемов данных на диске, для которых вы хотите выполнить много простых операций.В моей ситуации у меня есть сравнительно небольшой набор исходных данных (не более 100 мегабайт), над которым я выполняю много сложных операций, занимаю много памяти во время процесса и отнимаю много часов.
Какую инфраструктуру можно использоватьиспользовать в моем сценарии для использования масштабируемых кластеров в AWS (или аналогичных сервисах)?