Я новичок в TensorFlow и пытаюсь выполнить двоичную классификацию для моего набора данных. По сути, я пытаюсь предсказать, является ли предмет «привлекательным» или «не привлекательным».
Я упростила свой тренировочный набор, чтобы он выглядел примерно так:
lamp; 20cm; description: lightbulb, switch; attractive
lightbulb; 3cm; description: filament; attractive
switch; 1cm; description: switch; not attractive
filament; 0.5cm; description: -; attractive
Объяснение функций:
- 1-й столбец - название элемента
- 2-й столбец - ширина элемента
- 3-й столбец - это список текста, относящегося к предмету. Обратите внимание, что этот список может быть
NULL
или иметь> 0 элементов. Также обратите внимание, что каждый из элементов в списке появится ровно один раз в 1-м столбце одной из строк в наборе данных.
А в 4-м столбце показана классификация тренировочных данных.
Из того, что я прочитал онлайн, если я не ошибаюсь, приведенные выше данные нельзя использовать просто так - их нужно преобразовать в формат, читаемый TensorFlow.
Примечание. Я не хочу выполнять какую-либо классификацию текста, поскольку прогноз должен основываться на его атрибуте (ширине) и его связи с другими элементами.
Моя попытка сделать обучающий набор пригодным для использования (?) - путем кодирования каждого из элементов с идентификатором элемента и последующего использования массива для представления отношений:
1; 20; [2, 3]; 1
2; 3; [4]; 1
3; 1; [3]; 0
4; 0.5; []; 1
Тестовый набор:
5; 12; [2, 2]; ?
Я предполагаю, что нет необходимости создавать отдельный файл с отображением идентификатора для имен элементов, поскольку ранее я упоминал, что само имя элемента, как предполагается, не имеет никакого отношения к результату?
Вопросы:
- Если указанный выше формат помещен в файл CSV, это хорошо?
- Есть ли способ "связать" 3-й столбец с 1-м? Так что TensorFlow знает, что 3-й столбец на самом деле является массивом ключей в первом.
- Любые доступные ресурсы / учебники, которые могут помочь? Я уже ознакомился с руководством «Приступая к работе» на примере цветов ириса (но все они имеют десятичные дроби - без указания пользователем других функций).