Анализ настроений НЛП - основные c рекомендации - PullRequest
0 голосов
/ 18 марта 2020

Я делаю свой первый проект в области НЛП, который представляет собой анализ настроений набора данных с ~ 250 тегами engli sh точек данных / предложений. Набор данных представляет собой отзывы о фармацевтическом продукте, имеющем положительные, отрицательные или нейтральные метки. Я работал с данными цифр c в контролируемом обучении в течение 3 лет, но НЛП для меня - неисследованная территория. Поэтому я хочу знать лучшие методы предварительной обработки и шаги, которые мне нужно сделать, которые лучше всего подходят для моей проблемы. Руководство от НЛП было бы очень признательно!

Ответы [ 2 ]

1 голос
/ 19 марта 2020

Исходя из вашего комментария к ответу Мухаммеда карами, вы не поняли, что такое абзац или предложение представление (вы сказали "преобразование в число c - это настоящий вопрос" «). Итак, предположим, что в числовых данных у вас есть таблица с 2 столбцами (функциями) и меткой, может быть что-то вроде «стаж работы», «возраст» и метка «зарплата» (для прогнозирования зарплаты на основе возраста и опыта работы ). В НЛП функции обычно, если не большую часть времени, находятся на уровне слов (иногда это может быть также уровень символов или уровень подслов). Эти функции называются токенами. Теперь столбцы заменены на эти токены. Самый простой способ создать представление абзаца - использовать пакет слов. Поэтому после предварительной обработки каждое уникальное слово будет отображаться как столбец. Итак, предположим, что у нас есть последовательность данных с двумя строками:

  • «Я помогаю вам, и вы должны помочь мне» *
  • «Вы и я»

уникальные слова станут столбцом, поэтому таблица может выглядеть следующим образом:

I | help | you | and | should | me

Теперь два примера будут иметь значение следующим образом:

  • [1, 2, 2, 1, 1, 1]
  • [1, 0, 1, 1, 0, 0]

Обратите внимание, что первый элемент массива 1, поскольку оба образца имеют слово I и встречаются один раз, теперь видим, что второй элемент - это 2 в первой строке и 0 во второй строке, потому что помощь по словам встречалась дважды в первой строке и никогда не встречалась в второй ряд. Логика c, стоящая за этим, будет выглядеть примерно так: «если слово A, слово B ... существует, а слово H, слово I ... не существует, значит, ярлык положительный».

Bag слов работает большую часть времени, но у него есть проблема, такая как проблема размерности (представьте, что есть четыре миллиарда уникальных слов, их слишком много), а также обратите внимание, что это не учитывает порядок слов, обратите внимание, что похожие слова представлены так же, и их гораздо больше. Текущий уровень техники для НЛП называется BERT, узнайте, что если вы хотите использовать то, что best .

0 голосов
/ 18 марта 2020

Прежде всего, вы должны указать, какие функции вы хотите иметь, а затем выполнить предварительную обработку. Тем не менее, вы можете: 1- удалить HTML теги 2- удалить лишние пробелы 3- преобразовать акцентированные символы в символы ASCII 4- развернуть сокращения 5- удалить специальные символы 5 - вставить все тексты в нижнем регистре 6- преобразовать числовые слова в цифры c 7- Удалить цифры 8- Удалить стоп-слова 9- Лемматизация Сделайте ваши собственные данные. Я предлагаю посмотреть на пакет NLTK для НЛП. NLTK имеет функцию анализа настроения ( может помочь вашей работе ). Затем извлеките свои функции с помощью tf-idf или любых других алгоритмов извлечения или выбора функций. А затем дайте алгоритм машинного обучения после масштабирования.

...