Я столкнулся с двумя ситуациями:
большие наборы данных HDFS, которые служат хранилищем данных или приемником данных для других приложений
Приложения с HBASE или другими распределенными базами данных
Советы по модульному тестированию в обоих случаях: -
а. Сначала протестируйте различные функциональные компоненты приложения, для приложений с большими данными не существует специального правила; Как и в любом другом приложении, модульное тестирование должно определять, работают ли разные компоненты приложения должным образом или нет; затем вы можете интегрировать функции / сервисы / компоненты и т. д. для выполнения SIT, если применимо
б. В частности, если есть HBASE или любая другая распределенная база данных, пожалуйста, проверьте, что требуется от БД. Например, распределенные базы данных часто не поддерживают свойства ACID, такие как традиционные базы данных, и вместо этого ограничиваются так называемой теоремой CAP (согласованность, доступность, допуск на разделы); обычно 2 из 3 гарантированы. Для большинства RDBMS это CA, обычно для HBASE это CP и Cassandra AP. Как разработчик или специалист по планированию тестов, вы должны знать, в зависимости от функций ваших приложений, что является ограничением CAP для вашей распределенной базы данных, и, соответственно, создавать план тестирования для проверки реальной ситуации
Относительно производительности. Опять же, многое зависит от инфраструктуры и дизайна приложения. Также иногда некоторые программные реализации более обременительны, чем другие. Вы можете проверить количество разделов, например, все регистры
Относительно масштабируемости - очень большое преимущество реализации больших данных в том, что она легко масштабируется по сравнению с традиционной архитектурой. Я никогда не думал об этом как о тестируемом. Для большинства приложений с большими данными вы можете легко масштабироваться, особенно горизонтальное масштабирование очень просто, поэтому не уверен, что кто-нибудь задумывается о тестировании масштабируемости для большинства приложений.