Стандартная библиотека C ++ для крупномасштабной обработки данных - PullRequest
7 голосов
/ 30 октября 2011

Не могли бы вы сообщить мне некоторую стандартную библиотеку C ++, полезную для обработки крупномасштабных данных, например, Natural Language Processing с огромным набором данных, набором данных взаимодействий белок-белок и т. Д.

Best, Thetna

Ответы [ 2 ]

12 голосов
/ 30 октября 2011

Вы можете использовать STXXL при работе с огромными объемами данных. Цитирование с сайта:

STXXL реализует контейнеры и алгоритмы, которые могут обрабатывать огромные объемы данных, которые помещаются только на диски. В то время как близость к STL поддерживает простоту использования и совместимость с существующими приложениями, другим приоритетом дизайна является высокая производительность.

Также лицензия является разрешительной:

STXXL является бесплатным, открытым исходным кодом и доступен в рамках Boost Software License 1.0.

0 голосов
/ 04 марта 2013

Мне нравится добавлять библиотеку HDF5 в качестве некоммерческой альтернативы (лицензирование в стиле BSD):

В комплект технологий HDF5 входят:

- A versatile data model that can represent very complex data objects 
  and a wide variety of metadata.
- A completely portable file format with no limit on the number or size of data
  objects in the collection.
- A software library that runs on a range of computational platforms, from 
  laptops to massively parallel systems, and implements
  a high-level API with C, C++, Fortran 90, and Java interfaces.
- A rich set of integrated performance features that allow for access 
  time and storage space optimizations.
- Tools and applications for managing, manipulating, viewing, and 
  analyzing the data in the collection.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...