Как обрабатывать элементы в массиве параллельно, используя Ruby (и open-uri) - PullRequest
10 голосов
/ 27 сентября 2011

Мне интересно, как я могу открыть несколько одновременных подключений с помощью open-uri? я думаю, мне нужно использовать нитки или волокна, как, но я не уверен.

Пример кода:

def get_doc(url)
  begin
    Nokogiri::HTML(open(url).read)
  rescue Exception => ex
    puts "Failed at #{Time.now}"
    puts "Error: #{ex}"
  end
end

array_of_urls_to_process = [......]

# How can I iterate over items in the array in parallel (instead of one at a time?)
array_of_urls_to_process.each do |url|
  x = get_doc(url)
  do_something(x)
end

Ответы [ 5 ]

11 голосов
/ 27 сентября 2011

Существует также камень под названием Parallel , который похож на Peach, но активно обновляется.

8 голосов
/ 27 сентября 2011

Я надеюсь, что это дает вам представление:

def do_something(url, secs)
    sleep secs #just to see a difference
    puts "Done with: #{url}"
end

threads = []
urls_ary = ['url1', 'url2', 'url3']

urls_ary.each_with_index do |url, i|
    threads << Thread.new{ do_something(url, i+1) }
    puts "Out of loop #{i+1}"
end
threads.each{|t| t.join}

Возможно создание метода для Array, например:

class Array
    def thread_each(&block)
        inject([]){|threads,e| threads << Thread.new{yield(e)}}.each{|t| t.join}
    end
end

[1, 2, 3].thread_each do |i|
    sleep 4-i #so first one ends later
    puts "Done with #{i}"
end
4 голосов
/ 13 июля 2014
module MultithreadedEach
  def multithreaded_each
    each_with_object([]) do |item, threads|
      threads << Thread.new { yield item }
    end.each { |thread| thread.join }
    self
  end
end

Использование:

arr = [1,2,3]

arr.extend(MultithreadedEach)

arr.multithreaded_each do |n|
  puts n # Each block runs in it's own thread
end
2 голосов
/ 30 июня 2017

Простой метод с использованием потоков:

threads = []

[1, 2, 3].each do |i|
  threads << Thread.new { puts i }
end

threads.each(&:join)
0 голосов
/ 27 сентября 2011

Существует гем под названием peach (https://rubygems.org/gems/peach), который позволяет вам сделать это:

require "peach"

array_of_urls_to_process.peach do |url|
  do_something(get_doc(url))
end
...