K-означает, мешок слова, Word встроенный текстовый файл классификации CSV и получить данные, связанные - PullRequest
0 голосов
/ 18 марта 2019

У меня есть две задачи.

1) Я должен извлечь заголовки любого файла CVS, содержащего данные счета. В частности: номер счета, адрес, местоположение, физический товар. Меня попросили создать текстовый классификатор для этой задачи, поэтому классификатор перебирает любой файл CVS и идентифицирует эти 4 заголовка.

2) После того, как классификатор определит 4 слова, я должен найти вложение данных этого столбца и создать класс.

Я исследовал этот вопрос, и три методологии, которые, по моему мнению, должны быть использованы: 1) плохие слова 2) слово вложено 3) К-средняя кластеризация

Мешок слов может идентифицировать слово, но не дает мне места для самого слова, чтобы пойти и схватить столбец и создать класс.

Внедренное слово слишком сложно для этой задачи, я считаю, и даже если дать мне позицию слова в файле, слишком много времени для этого

K-означает, кажется простым и эффективным, он говорит мне, где слово.

Мой вопрос, прежде чем я начну кодировать

я что-то пропустил. Правильно ли мои рассуждения? И самый важный второй вопрос Как только положение слова определено в файле CSV, как я перевожу это в кодировку, чтобы я мог прикрепить данные в этом столбце

1 Ответ

0 голосов
/ 18 марта 2019

Я бы просто:

  • посмотрите на первую строку файла (заголовок);
    • фильтр из названий столбцов, которые вы ищете, используйте перечисление , чтобы результат содержал индексы столбцов
    • получить индексы столбцов из отфильтрованного результата
  • перебрать остальную часть файла;
    • использовать эти индексы для извлечения данных конкретных столбцов из каждой строки / строки
      • поместить эти данные в контейнер для последующего использования (возможно, использовать список)
...