Не могли бы вы сообщить мне некоторую стандартную библиотеку C ++, полезную для обработки крупномасштабных данных, например, Natural Language Processing с огромным набором данных, набором данных взаимодействий белок-белок и т. Д.
Best, Thetna
Вы можете использовать STXXL при работе с огромными объемами данных. Цитирование с сайта:
STXXL реализует контейнеры и алгоритмы, которые могут обрабатывать огромные объемы данных, которые помещаются только на диски. В то время как близость к STL поддерживает простоту использования и совместимость с существующими приложениями, другим приоритетом дизайна является высокая производительность.
Также лицензия является разрешительной:
STXXL является бесплатным, открытым исходным кодом и доступен в рамках Boost Software License 1.0.
Мне нравится добавлять библиотеку HDF5 в качестве некоммерческой альтернативы (лицензирование в стиле BSD):
В комплект технологий HDF5 входят: - A versatile data model that can represent very complex data objects and a wide variety of metadata. - A completely portable file format with no limit on the number or size of data objects in the collection. - A software library that runs on a range of computational platforms, from laptops to massively parallel systems, and implements a high-level API with C, C++, Fortran 90, and Java interfaces. - A rich set of integrated performance features that allow for access time and storage space optimizations. - Tools and applications for managing, manipulating, viewing, and analyzing the data in the collection.
В комплект технологий HDF5 входят:
- A versatile data model that can represent very complex data objects and a wide variety of metadata. - A completely portable file format with no limit on the number or size of data objects in the collection. - A software library that runs on a range of computational platforms, from laptops to massively parallel systems, and implements a high-level API with C, C++, Fortran 90, and Java interfaces. - A rich set of integrated performance features that allow for access time and storage space optimizations. - Tools and applications for managing, manipulating, viewing, and analyzing the data in the collection.