Question

У меня есть файл, который содержит несколько тысяч чисел, каждое в своей строке:

Я хочу написать скрипт, который будет печатать сумму всех чисел в файле. У меня есть решение, но оно не очень эффективно. (Запуск занимает несколько минут.) Я ищу более эффективное решение. Есть предложения?

agershun · Answer 1 · 21 декабря 2014

Вы можете сделать это с помощью Alacon - утилиты командной строки для Alasql базы данных.

Он работает с Node.js, поэтому вам нужно установить Node.js , а затем Alasql пакет:

Для вычисления суммы из файла TXT вы можете использовать следующую команду:

> node alacon "SELECT VALUE SUM([0]) FROM TXT('mydata.txt')"

ruben2020 · Answer 2 · 20 февраля 2013

Вот еще один:

open(FIL, "a.txt");

my $sum = 0;
foreach( <FIL> ) {chomp; $sum += $_;}

close(FIL);

print "Sum = $sum\n";

Daniel Porumbel · Answer 3 · 15 апреля 2018

Нелегко заменить все новые строки на +, добавить 0 и отправить его интерпретатору Ruby?

(sed -e "s/$/+/" file; echo 0)|irb

Если у вас нет irb, вы можете отправить его на bc, но вы должны удалить все новые строки, кроме последнего (из echo). Для этого лучше использовать tr, если только у вас нет докторской степени в sed.

(sed -e "s/$/+/" file|tr -d "\n"; echo 0)|bc

dwurf · Answer 4 · 22 августа 2013

C всегда побеждает в скорости:

#include <stdio.h>
#include <stdlib.h>

int main(int argc, char **argv) {
    ssize_t read;
    char *line = NULL;
    size_t len = 0;
    double sum = 0.0;

    while (read = getline(&line, &len, stdin) != -1) {
        sum += atof(line);
    }

    printf("%f", sum);
    return 0;
}

Время для номеров 1M (та же машина / ввод, что и для моего ответа на Python):

$ gcc sum.c -o sum && time ./sum < numbers 
5003371677.000000
real    0m0.188s
user    0m0.180s
sys     0m0.000s

Tom Kelly · Answer 5 · 24 июня 2019

Запуск сценариев R

Я написал R-скрипт для получения аргументов имени файла и суммирования строк.

#! /usr/local/bin/R
file=commandArgs(trailingOnly=TRUE)[1]
sum(as.numeric(readLines(file)))

Это можно ускорить с помощью пакета «data.table» или «vroom» следующим образом:

#! /usr/local/bin/R
file=commandArgs(trailingOnly=TRUE)[1]
sum(data.table::fread(file))

#! /usr/local/bin/R
file=commandArgs(trailingOnly=TRUE)[1]
sum(vroom::vroom(file))

Бенчмаркинг

Те же данные бенчмаркинга, что и @ glenn jackman .

for ((i=0; i<1000000; i++)) ; do echo $RANDOM; done > random_numbers

По сравнению с приведенным выше вызовом R запуск R 3.5.0 в качестве сценария сопоставим с другими методами (на том же сервере Linux Debian).

$ time R -e 'sum(scan("random_numbers"))'  
 0.37s user
 0.04s system
 86% cpu
 0.478 total

R скрипт с readLines

$ time Rscript sum.R random_numbers
  0.53s user
  0.04s system
  84% cpu
  0.679 total

R скрипт с data.table

$ time Rscript sum.R random_numbers     
 0.30s user
 0.05s system
 77% cpu
 0.453 total

R скрипт с vroom

$ time Rscript sum.R random_numbers     
  0.54s user 
  0.11s system
  93% cpu
  0.696 total

Сравнение с другими языками

Для справки здесь, как и некоторые другие методы, предложенные на том же оборудовании

Python 2 (2.7.13)

$ time python2 -c "import sys; print sum((float(l) for l in sys.stdin))" < random_numbers 
 0.27s user 0.00s system 89% cpu 0.298 total

Python 3 (3.6.8)

$ time python3 -c "import sys; print(sum((float(l) for l in sys.stdin)))" < random_number
0.37s user 0.02s system 98% cpu 0.393 total

Рубин (2.3.3)

$  time ruby -e 'sum = 0; File.foreach(ARGV.shift) {|line| sum+=line.to_i}; puts sum' random_numbers
 0.42s user
 0.03s system
 72% cpu
 0.625 total

Perl (5.24.1)

$ time perl -nle '$sum += $_ } END { print $sum' random_numbers
 0.24s user
 0.01s system
 99% cpu
 0.249 total

Awk (4.1.4)

$ time awk '{ sum += $0 } END { print sum }' random_numbers
 0.26s user
 0.01s system
 99% cpu
 0.265 total
$ time awk '{ sum += $1 } END { print sum }' random_numbers
 0.34s user
 0.01s system
 99% cpu
 0.354 total

C (версия clang 3.3; gcc (Debian 6.3.0-18) 6.3.0)

 $ gcc sum.c -o sum && time ./sum < random_numbers   
 0.10s user
 0.00s system
 96% cpu
 0.108 total

Обновление с дополнительными языками

Луа (5.3.5)

$ time lua -e 'sum=0; for line in io.lines() do sum=sum+line end; print(sum)' < random_numbers 
 0.30s user 
 0.01s system
 98% cpu
 0.312 total

tr (8.26) должен быть рассчитан в bash, несовместим с zsh

$time { { tr "\n" + < random_numbers ; echo 0; } | bc; }
real    0m0.494s
user    0m0.488s
sys 0m0.044s

sed (4.4) должен быть рассчитан в bash, несовместим с zsh

$  time { head -n 10000 random_numbers | sed ':a;N;s/\n/+/;ta' |bc; }
real    0m0.631s
user    0m0.628s
sys     0m0.008s
$  time { head -n 100000 random_numbers | sed ':a;N;s/\n/+/;ta' |bc; }
real    1m2.593s
user    1m2.588s
sys     0m0.012s

примечание: кажется, что вызовы sed работают быстрее в системах с большим объемом доступной памяти (обратите внимание на меньшие наборы данных, используемые для тестирования sed)

Юлия (0,5,0)

$ time julia -e 'print(sum(readdlm("random_numbers")))'
 3.00s user 
 1.39s system 
 136% cpu 
 3.204 total
$  time julia -e 'print(sum(readtable("random_numbers")))'
 0.63s user 
 0.96s system 
 248% cpu 
 0.638 total

Обратите внимание, что как и в R, методы файлового ввода-вывода имеют разную производительность.

Stefan Kendall · Answer 6 · 24 апреля 2010

Я не знаю, сможете ли вы стать намного лучше, чем это, учитывая, что вам нужно прочитать весь файл.

$sum = 0;
while(<>){
   $sum += $_;
}
print $sum;

Как я могу быстро сложить все числа в файле?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 28 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запуск сценариев R

Бенчмаркинг

Сравнение с другими языками

Обновление с дополнительными языками

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу быстро сложить все числа в файле?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 28 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запуск сценариев R

Бенчмаркинг

Сравнение с другими языками

Обновление с дополнительными языками

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы