Исходя из вашего комментария к ответу Мухаммеда карами, вы не поняли, что такое абзац или предложение представление (вы сказали "преобразование в число c - это настоящий вопрос" «). Итак, предположим, что в числовых данных у вас есть таблица с 2 столбцами (функциями) и меткой, может быть что-то вроде «стаж работы», «возраст» и метка «зарплата» (для прогнозирования зарплаты на основе возраста и опыта работы ). В НЛП функции обычно, если не большую часть времени, находятся на уровне слов (иногда это может быть также уровень символов или уровень подслов). Эти функции называются токенами. Теперь столбцы заменены на эти токены. Самый простой способ создать представление абзаца - использовать пакет слов. Поэтому после предварительной обработки каждое уникальное слово будет отображаться как столбец. Итак, предположим, что у нас есть последовательность данных с двумя строками:
- «Я помогаю вам, и вы должны помочь мне» *
- «Вы и я»
уникальные слова станут столбцом, поэтому таблица может выглядеть следующим образом:
I | help | you | and | should | me
Теперь два примера будут иметь значение следующим образом:
- [1, 2, 2, 1, 1, 1]
- [1, 0, 1, 1, 0, 0]
Обратите внимание, что первый элемент массива 1
, поскольку оба образца имеют слово I
и встречаются один раз, теперь видим, что второй элемент - это 2
в первой строке и 0
во второй строке, потому что помощь по словам встречалась дважды в первой строке и никогда не встречалась в второй ряд. Логика c, стоящая за этим, будет выглядеть примерно так: «если слово A, слово B ... существует, а слово H, слово I ... не существует, значит, ярлык положительный».
Bag слов работает большую часть времени, но у него есть проблема, такая как проблема размерности (представьте, что есть четыре миллиарда уникальных слов, их слишком много), а также обратите внимание, что это не учитывает порядок слов, обратите внимание, что похожие слова представлены так же, и их гораздо больше. Текущий уровень техники для НЛП называется BERT, узнайте, что если вы хотите использовать то, что best .