Формат входного набора данных для классификации текста по меткам Google AutoML Natural Language - PullRequest
0 голосов
/ 28 сентября 2018

Каким должен быть формат входного набора данных для классификации текста по меткам Google AutoML Natural Language?Я знаю, что для многоклассовой классификации мне нужен столбец текста и другой столбец для меток.Столбец меток содержит по одной метке на строку.

У меня есть несколько меток для каждого текста, и я хочу провести классификацию по нескольким меткам.Я попытался использовать один столбец для каждой метки и одно горячее кодирование, но я получил это сообщение об ошибке: поддерживается максимум 1000 меток.Найдено 9823 ярлыков.

Ответы [ 3 ]

0 голосов
/ 26 октября 2018

Сначала это было очень странно, но позже мне удалось найти формат в документации, которая представляет собой CSV-файл, такой как:

text1, label1, label2 text2, label2 text3, label3, label2, label1

Анализатор не понимаеттаблица с пустыми ячейками, сохраненными в виде стандартного файла CSV, например:

text1, label1, label2, text2, label2,, text3, label3, label2, label1

Мне пришлось вручную удалить лишние запятые из файла CSV, созданного Pandas.

0 голосов
/ 29 января 2019

Google AutoML обновил свой парсер.Следующий формат подходит:

text1, label1, label2, label3,
text1, label1, label2, ,
text1, label1, label2, , ,

По крайней мере, это сработало для меня 27 января 2019

0 голосов
/ 25 октября 2018

Один столбец на ярлык - это путь.Если у вас менее 1000 меток, вы, вероятно, допустили ошибку в вашем CSV-файле, когда анализатор запутался и считает, что некоторые из токенов в тексте примера являются метками.Пожалуйста, убедитесь, что ваш текст правильно экранирован с кавычками.

...