Манифест классификации текста AWS Ground Truth с использованием «source-ref» без отображения текста - PullRequest
0 голосов
/ 05 декабря 2018

Справочная информация

Я опробую SageMaker Ground Truth, сервис AWS, который поможет вам маркировать ваши данные перед использованием в ваших алгоритмах ML .

МаркировкаДля работы требуется файл манифеста, который содержит объект JSON на строку, содержащую source или source-ref, см. также раздел Входные данные документации.

Настройка

Source-ref - это ссылка на расположение документа в S3-контейнере, например:

my-bucket/data/manifest.json
my-bucket/data/123.txt
my-bucket/data/124.txt

...

Файл манифеста выглядит следующим образом (на основе пример блога ):

{"source-ref": "s3://my-bucket/data/123.txt"}
{"source-ref": "s3://my-bucket/data/124.txt"}
...

Проблема

Когда я создаю работу, все, что я получаю, это значение source-ref: s3: //my-bucket / data / 123.txt как текст, содержимое файла не отображается.

Я попытался создать задания, используя манифест, который не содержит протокол s3, но я получаютот же результат.

Это ошибка с их стороны, или я что-то упускаю?

Наблюдения

  • Я пытался сделать все файлы общедоступными,думаешь там может быть проблема с разрешениями?но не
  • Я гарантировал, что тип содержимого файла был текстовый (s3 -> object -> properties -> metadata)
  • Если я использую «source» и вставляю текст, он работаетправильно, но я должен иметь возможность использовать отдельные документы, поскольку существует ограничение на размер файла, особенно если мне нужно пометить много или большие документы!

Ответы [ 2 ]

0 голосов
/ 19 июля 2019

Проблема с вашей лямбда предварительной обработки.Лямбда предварительной обработки получает объекты из манифеста (партиями afaik), то есть источники s3.Предварительная обработка лямбда должна прочитать файлы и вернуть фактический контент.Похоже, ваша предварительная обработка передает местоположение файлов вместо содержимого.Обратитесь к документации.любой пример предварительной обработки лямбды для текста должен легко настраиваться под ваш случай

0 голосов
/ 10 декабря 2018

Я являюсь членом команды AWS SageMaker GroundTruth.Сожалею, что у вас возникли трудности при использовании определенных функций нашего продукта.

Из вашего поста я предполагаю, что у вас есть несколько текстовых файлов, и каждый текстовый файл содержит несколько строк.Для классификации текста, чтобы показать предварительный просмотр в консоли, в настоящее время мы поддерживаем только встроенный режим, используя «источник», содержащий каждую строку.

Мы понимаем, что создавать манифест со встроенным текстом неудобно, поскольку он не является тривиальным и требует много времени.Вот почему мы предусмотрели функцию сканирования в консоли (см. Ссылку «создать входной манифест» над полем входного манифеста), которая принимает входной s3Prefix и сканирует все текстовые файлы (с расширениями .txt, .csv) в этом префиксе и читаеткаждая строка каждого из текстовых файлов в префиксе, и создает манифест с каждой строкой как {«source»: »»}.Пожалуйста, дайте нам знать, если вы можете сканировать, чтобы создать свой манифест.

Обратите внимание, что в настоящее время сканер будет работать только в том случае, если вы создали папку s3: // my-bucket / data / из консоли, а затем загрузили все текстовые файлы в этой папке (вместо использования инструмента синхронизации s3 cli).загрузить локальные данные / каталог).

Извините, если наши документы не ясны, и мы определенно принимаем ваши отзывы, чтобы улучшить наш продукт.По любым вопросам, пожалуйста, свяжитесь с нами здесь: https://aws.amazon.com/contact-us/

...