(1) Ну, Hive и Rhipe кластер не нужны, их можно запускать на кластере с одним узлом.
По сути, RHipe - это фреймворк (на языке R - пакет), который интегрирует R и Hadoop, и вы можете использовать возможности R в Hadoop. Для использования Rhipe вам не нужно иметь кластер, вы можете работать любым способом, то есть либо в режиме кластера, либо в псевдо режиме. Даже если у вас кластер Hadoop из более чем 2 узлов, вы все равно можете использовать Rhipe в локальном режиме, указав свойство mapered.job.tracker = 'local'.
Вы можете перейти на мой сайт (поиск) "Группы пользователей Bangalore R", и вы увидите, как я пытался решить проблемы с помощью Rhipe, я надеюсь, что вы сможете получить честную идею
(2) Хорошо, под Hive вы подразумеваете пакет улья в R? поскольку этот пакет несколько вводит в заблуждение с Hive (хранилище данных Hadoop).
Пакет Hive в R похож на Rhipe только с некоторыми дополнительными функциями (я не прошел полностью). Пакет Hive, когда я увидел, думал, что они интегрировали R с Hive, но после просмотра функциональности это было не так как дата.
Хорошо, хранилище данных Hadoop, которое является HIVE, в основном, если вы заинтересованы в некотором подмножестве результатов, которые должны проходить через подмножество данных, что вы обычно делаете с помощью SQL-запросов. Запросы в HIVE также очень похожи на запросы SQL.
Приведу очень простой пример: допустим, у вас есть 1 ТБ данных по акциям для различных акций за последние 10 лет. Теперь первое, что вы сделаете, вы сохраните в HDFS, а затем создадите таблицу HIVE поверх нее. Вот так ... Теперь запустите любой запрос, который вы хотите. Вы также можете захотеть сделать несколько сложных вычислений, например, найти простое скользящее среднее (SMA), в этом случае вы можете написать свой UDF (пользовательская функция). Помимо этого вы также можете использовать UDTF (пользовательская функция генерации таблиц)
(3) Если у вас есть одна система, это означает, что вы запускаете Hadoop в псевдо-режиме. Более того, вам не нужно беспокоиться о том, работает ли Hadoop в псевдо-режиме или в режиме кластера, поскольку Hive необходимо устанавливать только на NameNode, а не на узлах данных. Как только правильная конфигурация будет выполнена, куст будет заботиться о передаче работы в кластере.
В отличие от Hive, вам нужно установить R и Rhipe на всех узлах данных, включая NameNode. Но затем, в любой момент времени, если вы хотите запустить задание только в NameNode, вы можете сделать, как я упоминал выше.
(4) Еще одна вещь, Rhipe предназначена только для пакетных заданий, это означает, что задание MR будет выполняться на всем наборе данных, в то время как Hive вы можете запускать на подмножестве данных.
(5) Я хотел бы понять, что именно вы делаете в интеллектуальном анализе текста, пытаетесь ли вы сделать что-то вроде короля НЛП, таких как распознавание имен, используя HMM (скрытые марковские модели), CRF (условные случайные поля), функцию векторы или SVM (опорные векторные машины).
Или вы просто пытаетесь сделать кластеризацию документов, индексацию и т. Д.
Ну, есть пакеты, такие как тм, openNLP, HMM, SVM и т. Д.