Моя инфраструктура больших данных завершена или я что-то упустил? - PullRequest
0 голосов
/ 13 октября 2019

Я загружаю цены акций на конец дня для более чем 20 000 глобальных ценных бумаг на 20 различных рынках. Затем я запускаю свои 20 000 патентованных торговых установок над этими ценными бумагами для прибыльных торговых настроек. Процесс прост, но процесс нуждается в автоматизации облачных вычислений, потому что его невозможно запустить на настольном компьютере.

Я подхожу к этому решению как к новичку, поэтому прошу прощения за отсутствие технического понимания.

  1. Я загружаю цены из одного источника на мой компьютер в файлы Microsoft Excel.
  2. Использую ли я Apache Arrow для переноса файлов Excel в Apache Parquet? Я рассматриваю Parquet, потому что это решение для хранения в виде столбцов, которое идеально подходит для исторических форматов файлов с ценами на акции.
  3. Для запуска 20 000 проприетарных торговых настроек я бы использовал Apache Spark для чтения файлов паркета в выбранной мной облачной среде.
  4. Это будет приводить к высокой вероятности результатов торговли каждый день, которые будут загружаться на мою веб-платформу.

Очень упрощенная установка из моего текущего исследования. Заранее благодарю за помощь.

С уважением, Леви

1 Ответ

0 голосов
/ 13 октября 2019

Извините, но у вас нет больших настроек данных.

Вы используете только один компьютер для преобразования файлов Excel в паркет. Если вы можете прочитать данные и снова записать их на диск в разумные сроки, значит, у вас нет «больших данных».

Что вы должны сделать, это:

  1. Получить данные в свой набор данных, используя что-то вроде Apache NiFi
  2. Используйте spark для чтения данных из datalake,Для файлов Excel см. Как создать Dataframe из файла Excel (xls, xlsx) в Scala Spark?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...