Добавление тегов формата trec в тысячи файлов - PullRequest
0 голосов
/ 15 марта 2011

Мне нужно добавить теги, такие как текст файла в тысячи файлов в каталоге, и я попробовал это с помощью cat и вывести его в поток файла, используя

for file in *
do
cat ../gau > temp;  //gau contain format i need to append in each file
echo $file >>temp;
cat ../gau_ >>temp ;//contains </DOCID>
cat $file >>temp;  
cat ../gau1  >> temp;  //this contain last sentence </DOC>
cat temp > $file
done

но делать это очень медленно, пожалуйста, скажите, пожалуйста, лучший и эффективный способ сделать это. Невозможно сделать с помощью c. Как мы можем открывать файлы партиями, а затем обрабатывать их и возвращать обратно, поскольку это может ускорить этот процесс Полагаю, что открытие и запись файла - это «горлышко бутылки».

Существует ли уже готовая программа (которая эффективна и быстра) для выполнения этой работы, так как у нас мало времени?

Ответы [ 2 ]

0 голосов
/ 15 марта 2011

Не cat temp > $file, просто mv temp $file - вам не нужно переписывать файл, просто переименуйте его. Это, безусловно, одна из причин плохой производительности

for file in *; do
  { cat ../gau; echo $file; cat ../gau_ $file ../gau1; } > temp
  mv temp $file
done

Возможно, вы захотите выбрать более описательные имена файлов, чем "gau", "gau_" и "gau1".

0 голосов
/ 15 марта 2011

Это быстрый код Python, попробуйте его, он будет выполняться быстрее, чем ваш пакетный скрипт:

import os

for dirname, dirnames, filenames in os.walk('/MY_DIRECTORY/'):
    for filename in filenames:
        with open(os.path.join(dirname, filename), "r+") as f:
             str = f.read() # read everything in the file
             f.seek(0) # rewind
             f.write("Prepended text tags" + str) # write the new line before
             f.close()

Хотя я не пробовал.

...