Question

Справочная информация

Я опробую SageMaker Ground Truth, сервис AWS, который поможет вам маркировать ваши данные перед использованием в ваших алгоритмах ML .

МаркировкаДля работы требуется файл манифеста, который содержит объект JSON на строку, содержащую source или source-ref, см. также раздел Входные данные документации.

Настройка

Source-ref - это ссылка на расположение документа в S3-контейнере, например:

my-bucket/data/manifest.json
my-bucket/data/123.txt
my-bucket/data/124.txt

...

Файл манифеста выглядит следующим образом (на основе пример блога ):

{"source-ref": "s3://my-bucket/data/123.txt"}
{"source-ref": "s3://my-bucket/data/124.txt"}
...

Проблема

Когда я создаю работу, все, что я получаю, это значение source-ref: s3: //my-bucket / data / 123.txt как текст, содержимое файла не отображается.

Я попытался создать задания, используя манифест, который не содержит протокол s3, но я получаютот же результат.

Это ошибка с их стороны, или я что-то упускаю?

Наблюдения

Я пытался сделать все файлы общедоступными,думаешь там может быть проблема с разрешениями?но не
Я гарантировал, что тип содержимого файла был текстовый (s3 -> object -> properties -> metadata)
Если я использую «source» и вставляю текст, он работаетправильно, но я должен иметь возможность использовать отдельные документы, поскольку существует ограничение на размер файла, особенно если мне нужно пометить много или большие документы!

Radu Simionescu · Answer 1 · 19 июля 2019

Проблема с вашей лямбда предварительной обработки.Лямбда предварительной обработки получает объекты из манифеста (партиями afaik), то есть источники s3.Предварительная обработка лямбда должна прочитать файлы и вернуть фактический контент.Похоже, ваша предварительная обработка передает местоположение файлов вместо содержимого.Обратитесь к документации.любой пример предварительной обработки лямбды для текста должен легко настраиваться под ваш случай

Zahid Rahman · Answer 2 · 10 декабря 2018

Я являюсь членом команды AWS SageMaker GroundTruth.Сожалею, что у вас возникли трудности при использовании определенных функций нашего продукта.

Из вашего поста я предполагаю, что у вас есть несколько текстовых файлов, и каждый текстовый файл содержит несколько строк.Для классификации текста, чтобы показать предварительный просмотр в консоли, в настоящее время мы поддерживаем только встроенный режим, используя «источник», содержащий каждую строку.

Мы понимаем, что создавать манифест со встроенным текстом неудобно, поскольку он не является тривиальным и требует много времени.Вот почему мы предусмотрели функцию сканирования в консоли (см. Ссылку «создать входной манифест» над полем входного манифеста), которая принимает входной s3Prefix и сканирует все текстовые файлы (с расширениями .txt, .csv) в этом префиксе и читаеткаждая строка каждого из текстовых файлов в префиксе, и создает манифест с каждой строкой как {«source»: »»}.Пожалуйста, дайте нам знать, если вы можете сканировать, чтобы создать свой манифест.

Обратите внимание, что в настоящее время сканер будет работать только в том случае, если вы создали папку s3: // my-bucket / data / из консоли, а затем загрузили все текстовые файлы в этой папке (вместо использования инструмента синхронизации s3 cli).загрузить локальные данные / каталог).

Извините, если наши документы не ясны, и мы определенно принимаем ваши отзывы, чтобы улучшить наш продукт.По любым вопросам, пожалуйста, свяжитесь с нами здесь: https://aws.amazon.com/contact-us/

Манифест классификации текста AWS Ground Truth с использованием «source-ref» без отображения текста

Справочная информация

Настройка

Проблема

Наблюдения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Манифест классификации текста AWS Ground Truth с использованием «source-ref» без отображения текста

Справочная информация

Настройка

Проблема

Наблюдения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы