Как работает токенизация и сопоставление с образцом на китайском? - PullRequest
10 голосов
/ 02 октября 2011

Этот вопрос включает в себя вычисления, а также знание китайского У меня есть запросы на китайском языке, и у меня есть отдельный список фраз на китайском языке, мне нужно, чтобы найти, какой из этих запросов содержит какую-либо из этих фраз.

На английском языке это очень простая задача. Я вообще не понимаю китайский язык, его семантику, правила грамматики и т. Д., И если кто-то на этом форуме, кто также понимает китайский, может помочь мне с некоторыми базовыми знаниями и тем, как выполняется сопоставление с образцом для китайского языка.

У меня есть базовое представление о том, что в китайском языке одна единица (без пробела между ними) может фактически означать более одного слова (это правильно?). Так есть ли какие-либо правила о том, как несколько слов объединяются между собой, чтобы выделиться как единое целое? Это сбивает с толку, потому что в китайской письменности есть пробелы, но даже у единицы без пробела есть более одного слова.

Очень полезны любые ссылки, которые объясняют китайский язык с вычислительной точки зрения, сопоставление с образцом и т. Д.

Ответы [ 2 ]

10 голосов
/ 02 октября 2011

У меня есть базовое представление о том, что на китайском языке одна единица (без пробела между ними) может фактически означать более одного слова (это правильно?).

В китайском пространстве редко используются, например:

递归 (英语: рекурсии). , 又 譯為 遞 迴, 在 数学 与 计算机 科学 中, 是 指 在 函数 的 定义 中 使用 函数 自身 的 方法 递归 一词 还 较 常用 于 描述以 自 相似 方法 重复 事物 的 过程. 例如, 当 两面 镜子 相互 之间 近似 平行 时, 镜 中 嵌套 的 图像 是以 无限 递归 的 形式 出现 的.

Вы заметите, что, по-видимому, пробелы на самом деле являются китайскими знаками препинания, у которых просто больше отступов, чем обычно.

Так есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделиться как единое целое? Это сбивает с толку, потому что в китайской письменности есть пробелы, но даже у единицы без пробела есть более одного слова.

Подумайте об этом так: один китайский символ очень, очень приблизительно похож на одно английское слово. Часто два или более символов необходимо объединить в одно слово, и каждый отдельный символ может означать что-то совершенно другое в зависимости от контекста.

Чтобы осмысленно пометить текст на китайском языке, вам нужно разбить слова на части с учетом этого.

См. Обработка китайского естественного языка и обработка речи , из группы Stanford NLP.

1 голос
/ 02 октября 2011

Книга Кена Лунда CJKV Обработка информации , вероятно, стоит посмотреть. Основной порядок слов - субъект - глагол - объект, но см. Также «Значимость темы» в http://en.wikipedia.org/wiki/Chinese_grammar

...