кластеризация / классификация текстов на необычном языке - PullRequest
0 голосов
/ 31 декабря 2018

Брифинг: каков будет ваш подход к кластеризации аналогичного текста на необычном языке?

Подробности: Я перебираю сайт объявлений, пытающийся сгруппировать похожие объявления (по одному и тому же продукту).Текст часто содержит орфографические ошибки, написанные на 2-х языках (что-то вроде 1ee7), и некоторый текст, написанный фонетически в другом алфавите (например, Diànshì для s или velosiped для велосипеда) или на другом диалекте.

Тогда как бывы продолжаете управлять таким непредсказуемым вводом?

1 Ответ

0 голосов
/ 17 января 2019

Зависит от того, насколько большой у вас набор данных.Вы можете построить матрицу подобия для объектов данных, используя некоторую метрику строкового расстояния, например, расстояние редактирования или Джакарда с n-граммами.Существует много алгоритмов кластеризации, которые могут кластеризовать практически любые данные на основе матрицы расстояний.Например, можно использовать агломерационную кластеризацию или пики плотности.Оба имеют обычно O (N 2 ) временную сложность, поэтому могут быть неосуществимы для больших наборов данных.

Лично я использовал более быстрый (чем O (N 2 )) вариант Density Peaks для больших (> 500 000) наборов строковых данных, и он был в основном кластеризовать данныев соответствии с языком также.Но метод пока не публичен.

...