У меня есть две задачи.
1) Я должен извлечь заголовки любого файла CVS, содержащего данные счета.
В частности: номер счета, адрес, местоположение, физический товар.
Меня попросили создать текстовый классификатор для этой задачи, поэтому классификатор перебирает любой файл CVS и идентифицирует эти 4 заголовка.
2) После того, как классификатор определит 4 слова, я должен найти вложение данных этого столбца и создать класс.
Я исследовал этот вопрос, и три методологии, которые, по моему мнению, должны быть использованы:
1) плохие слова
2) слово вложено
3) К-средняя кластеризация
Мешок слов может идентифицировать слово, но не дает мне места для самого слова, чтобы пойти и схватить столбец и создать класс.
Внедренное слово слишком сложно для этой задачи, я считаю, и даже если дать мне позицию слова в файле, слишком много времени для этого
K-означает, кажется простым и эффективным, он говорит мне, где слово.
Мой вопрос, прежде чем я начну кодировать
я что-то пропустил. Правильно ли мои рассуждения?
И самый важный второй вопрос
Как только положение слова определено в файле CSV, как я перевожу это в кодировку, чтобы я мог прикрепить данные в этом столбце