Mahout работает на Hadoop (в соответствии с документацией), и если вы используете Google, есть проекты, которые используют стек рельсов для связи с кластером hadoop.Но основной процесс будет состоять в том, чтобы запустить кластер hadoop на множестве экземпляров ec2 или другой инфраструктуре кластеризации, а затем связать его с вашим приложением через адаптер базы данных.похоже, что у меня был некоторый успех с другими базами данных (oracle, mySQL, LDAP, jdbc), это datamapper, и они заинтересованы в разработке адаптера hadoop: http://wiki.github.com/datamapper/dm-core/ruby-summer-of-code-ideas
это, вероятно, наиболее многообещающийбиблиотека, которую я видел для ваших целей, хотя: http://mrflip.github.com/wukong/INSTALL.html