Question

У меня есть «главный» файл с несколькими столбцами: 1 2 3 4 5. У меня есть несколько других файлов, с меньшим количеством строк, чем основной файл, каждый из которых содержит столбцы: 1 6. Я хочу объединитьэти файлы совпадают в поле столбца 1 и добавьте столбец 6 к мастеру.Я видел некоторые решения на python / UNIX, но предпочел бы использовать ruby / fastcsv, если это хорошо подходит.Буду признателен за любую помощь в начале работы.

Kassym Dorsel · Answer 1 · 31 октября 2011

FasterCSV теперь является реализацией CSV по умолчанию в Ruby 1.9.Этот код не проверен, но должен работать.

require 'csv'
master = CSV.read('master.csv') # Reads in master
master.each {|each| each.push('')} # Adds another column to all rows
Dir.glob('*.csv').each do |each| #Goes thru all csv files
  next if each == 'master.csv' # skips the master csv file
  file = CSV.read(each) # Reads in each one
  file.each do |line| #Goes thru each line of the file
    temp = master.assoc(line[0]) # Finds the appropriate line in master
    temp[-1] = line[1] if temp #updates last column if line is found
  end
end

csv = CSV.open('output.csv','wb') #opens output csv file for writing
master.each {|each| csv << each} #Goes thru modified master and saves it to file

DigitalRoss · Answer 2 · 30 октября 2011

$ cat j4.csv
how, now, brown, cow, f1
now, is, the, time, f2
one, two, three, four, five
xhow, now, brown, cow, f1
xnow, is, the, time, f2
xone, two, three, four, five
$ cat j4a.csv
how, b
one, d
$ cat hj.rb
require 'pp'
require 'rubygems'
require 'fastercsv'

pp(
  FasterCSV.read('j4a.csv').inject(
    FasterCSV.read('j4.csv').inject({}) do |m, e|
      m[e[0]] = e
      m
    end) do |m, e|
    k = e[0]
    m[k] << e.last if m[k]
    m
  end.values)
$ ruby hj.rb
[["now", " is", " the", " time", " f2"],
 ["xhow", " now", " brown", " cow", " f1"],
 ["xone", " two", " three", " four", " five"],
 ["how", " now", " brown", " cow", " f1", " b"],
 ["one", " two", " three", " four", " five", " d"],
 ["xnow", " is", " the", " time", " f2"]]

Это работает, отображая ваш мастер-файл в хеш с ключом один столбец, а затем он просто ищет ключ из других ваших файлов.Как написано, код добавляет последний столбец, когда ключи совпадают.Поскольку у вас есть несколько неосновных файлов, вы можете адаптировать концепцию, заменив FasterCSV.read('j4a.csv') методом, который читает каждый файл и объединяет их все в один массив массивов, или вы можете просто сохранить результат из внутреннего inject (главный хеш) и применить к нему каждый файл в цикле.

new2cpp · Answer 3 · 08 сентября 2018

temp = master.assoc(line[0])

Выше очень медленный процесс.Весь комплекс по крайней мере O (n ^ 2).

Я бы использовал следующий процесс:

для 1 6 CSV, преобразовать его в большой хэш с 1 в качестве ключаи 6 как значение, названное как 1_to_6_hash
цикл 1 2 3 4 5 csv строка за строкой, установите строку [6] = 1_to_6_hash [строка [1]]

Это будет резкоуменьшить комплекс до O (n)

объединять CSV-файлы в общем поле с ruby / fastcsv

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

объединять CSV-файлы в общем поле с ruby ​​/ fastcsv

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

объединять CSV-файлы в общем поле с ruby / fastcsv