Построение твитов из БД в Ruby, группировка по часам - PullRequest
0 голосов
/ 20 апреля 2010

Эй, ребята, у меня есть пара проблем с моим кодом.

  • Мне было интересно, что я готовлю сюжет результаты очень неэффективны, так как группировка по часам занимает века
  • БД очень проста, она содержит твиты, дату создания и имя пользователя. Питается щебетать садовый шланг.

Спасибо за вашу помощь!

require 'rubygems'
require 'sequel'
require 'gnuplot'

DB = Sequel.sqlite("volcano.sqlite")
tweets = DB[:tweets]

def get_values(keyword,tweets)
        my_tweets = tweets.filter(:text.like("%#{keyword}%"))
    r = Hash.new
    start = my_tweets.first[:created_at]
    my_tweets.each do |t|
     hour = ((t[:created_at]-start)/3600).round
     r[hour] == nil ? r[hour] = 1 : r[hour] += 1
    end

    x = []
    y = []
    r.sort.each do |e|
     x <<  e[0]
     y <<  e[1]
    end
    [x,y]
end

keywords = ["iceland", "island", "vulkan", "volcano"]
values  = {}

keywords.each do |k|
  values[k] = get_values(k,tweets)
end


Gnuplot.open do |gp|
 Gnuplot::Plot.new(gp) do |plot|
  plot.terminal "png"
  plot.output "volcano.png"
  plot.data = []
  values.each do |k,v|
     plot.data <<  Gnuplot::DataSet.new([v[0],v[1]]){ |ds|
       ds.with = "linespoints"
       ds.title = k
    }
  end
 end
end

1 Ответ

0 голосов
/ 21 апреля 2010

Это один из тех случаев, когда имеет смысл использовать SQL. Я бы порекомендовал сделать что-то наподобие того, что описано в этом другом вопросе группировки , и просто изменить его, чтобы использовать функции даты SQLite вместо функций MySQL.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...