Есть ли способ просматривать текстовые документы, хранящиеся в облачном хранилище Google? - PullRequest
0 голосов
/ 05 марта 2019

Вопрос

Есть ли способ просматривать текстовые документы, хранящиеся в Google Cloud Storage?

Фон

Я храню более 10 тысяч документов (текстовый файл)на виртуальной машине и занимает место.И прежде чем он достигнет предела, я хочу переместить документы в другое место.В настоящее время я рассматриваю возможность перехода на облачное хранилище Google на GCP.

Проблемы

Иногда мне нужно выполнить поиск документов с конкретными ключевыми словами.Мне было интересно, есть ли способ просмотреть документы, загруженные в Google Cloud Storage?Я проверил gsutil docs, но кажется, что ls, cp, mv, rm поддерживается, но я не вижу grep.

Ответы [ 5 ]

0 голосов
/ 04 августа 2019

Я написал собственный двоичный файл Linux [mrgrep] (для ubuntu 18.04) (https://github.com/romange/gaia/releases/tag/v0.1.0), который делает именно это. Он читает непосредственно из GCS и, в качестве бонуса, обрабатывает сжатые файлы и многорезьба.

0 голосов
/ 27 марта 2019

я нашел ответ на этот вопрос.gcpfuse решил эту проблему.

подключите облачное хранилище Google к определенной директории.и вы можете grep оттуда.

https://cloud.google.com/storage/docs/gcs-fuse https://github.com/GoogleCloudPlatform/gcsfuse

0 голосов
/ 05 марта 2019

@ хоуи ответ это хорошо.Я просто хочу упомянуть, что Google Cloud Storage - это продукт, предназначенный для хранения файлов, и его не волнует их содержимое.Кроме того, он спроектирован так, чтобы его можно было масштабировать, а запрашиваемая операция требует больших вычислительных ресурсов, поэтому маловероятно, что она будет поддерживаться изначально в будущем.

В вашем случае я бы хотел создатьиндекс текстовых файлов и вызывает обновление для него каждый раз, когда новый файл загружается в GCS .

0 голосов
/ 10 марта 2019

У меня есть еще одно предложение.Вы можете рассмотреть возможность использования Google Dataflow для обработки документов.Вы можете просто переместить их, но, что более важно, вы можете преобразовать документы, используя Dataflow.

0 голосов
/ 05 марта 2019

К сожалению, нет такой команды, как grep для gsutil.

Единственная подобная команда - gsutil cat .

Я предлагаю вам создать небольшую виртуальную машину, и grep на облаке будет быстрее и дешевле.

gsutil cat gs://bucket/ | grep "what you wnat to grep"
...