Максимальный размер файла, который может быть обработан с помощью Hadoop в режиме псевдораспределения - PullRequest
0 голосов
/ 22 июля 2011

Я обрабатываю файл с 7+ миллионами строк (~ 59 МБ) в машине с Ubuntu 11.04 с такой конфигурацией:

Intel(R) Core(TM)2 Duo CPU     E8135  @ 2.66GHz, 2280 MHz
Memory: 2GB
Disk: 100GB

Даже после пробежки в течение 45 минут я не видел никакого прогресса.

Deleted hdfs://localhost:9000/user/hadoop_admin/output
packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv, /usr/local/hadoop/mapper.py, /usr/local/hadoop/reducer.py, /tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/] [] /tmp/streamjob582836411271840475.jar tmpDir=null
11/07/22 10:39:20 INFO mapred.FileInputFormat: Total input paths to process : 1
11/07/22 10:39:21 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop_admin/mapred/local]
11/07/22 10:39:21 INFO streaming.StreamJob: Running job: job_201107181559_0099
11/07/22 10:39:21 INFO streaming.StreamJob: To kill this job, run:
11/07/22 10:39:21 INFO streaming.StreamJob: /usr/local/hadoop/bin/../bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099
11/07/22 10:39:21 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099
11/07/22 10:39:22 INFO streaming.StreamJob:  map 0%  reduce 0%

Каков максимально возможный размер файла, который может быть обработан с использованием Hadoop в режиме pseudo distributed.

Изменено:

Я делаю простое приложение для WordCount, используя Hadoop Streaming. Мои mapper.py и reducer.py заняли около 50 Sec, чтобы обработать файл с 220K строк (~ 19 МБ).

Ответы [ 2 ]

0 голосов
/ 22 июля 2011

Ограничение размера действительно зависит от размера доступного вам хранилища.Чтобы дать вам представление, я уже довольно давно занимаюсь обработкой входных файлов размером несколько ГиБ (сжатые gzip файлы apache) на одном узле.Единственное реальное ограничение - сколько времени это займет и достаточно ли это для вас.

0 голосов
/ 22 июля 2011

Проблема решена, я не убивал предыдущие задания, поэтому это задание встало в очередь, поэтому оно было отложено.Я использовал bin/hadoop -kill <job_id>, чтобы убить все отложенные задания.Для обработки всего файла (~ 59 МБ) в pseudo distributed mode

потребовалось ~140 Sec
...