В графическом векторизаторе какую ось использовать? - PullRequest
1 голос
/ 22 марта 2020

Я хочу создать матрицу условий документа. В моем случае это не документы x слова, а предложения x слова, поэтому предложения будут выступать в качестве документов. Я использую нормализацию 'l2' после создания c -терминовой матрицы.

Мне важно использовать термин count для создания суммирования с использованием SVD на следующих шагах.

Мой запрос - это какая ось будет уместно применить нормализацию 'l2'. При достаточном исследовании я понял:

  • Ось = 1: даст мне важность слова в предложении (по столбцам нормализация)
  • Ось = 0: Важность слова в документ (построчная нормализация).

Даже зная теорию, я не могу решить, какую альтернативу выбрать, потому что выбор сильно повлияет на мои результаты обобщения. Так что, будьте добры, наведите мне решение и объясните причину.

1 Ответ

1 голос
/ 22 марта 2020

Под нормализацией L2 вы подразумеваете деление на общее количество? Если вы нормализуетесь по оси = 0, то значение x_{i,j} - это вероятность слова j по всем предложениям i (деление на общее количество слов), которая зависит от длины предложения, так как более длинные могут повторять некоторые слова снова и снова, и вероятность этого слова будет намного выше, поскольку они вносят большой вклад в общее количество слов. Если вы нормализуетесь по оси = 1, то вы спрашиваете, имеют ли предложения такой же состав слов, как вы нормализуетесь по длине предложения.

...