У emr-DynamodB-коннектора читает данные параллельно - PullRequest
0 голосов
/ 29 сентября 2018

Do emr-DynamodB-разъем считывает данные параллельно в искре?Я проверил, что RDD, который я получаю от него, имеет только один раздел.

import org.apache.hadoop.io.Text;
import org.apache.hadoop.dynamodb.DynamoDBItemWritable
import org.apache.hadoop.dynamodb.read.DynamoDBInputFormat
import org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat
import org.apache.hadoop.mapred.JobConf
import org.apache.hadoop.io.LongWritable

var jobConf = new JobConf(sc.hadoopConfiguration)
jobConf.set("dynamodb.input.tableName", "TableName")

jobConf.set("mapred.output.format.class", "org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat")
jobConf.set("mapred.input.format.class", "org.apache.hadoop.dynamodb.read.DynamoDBInputFormat")

var orders = sc.hadoopRDD(jobConf, classOf[DynamoDBInputFormat], classOf[Text], classOf[DynamoDBItemWritable])

Над кодом для чтения данных из DynamoDB.Ниже приведено количество разделов.

scala> orders.getNumPartitions
res4: Int = 1

Можно ли параллельно читать данные и обрабатывать их?

...