хочу знать, как получить слоги в сценарии телугу - PullRequest
1 голос
/ 31 октября 2009

я работаю над сценарием телугу, чей диапазон юникода равен 0C01-0C7F Можете ли вы объяснить, как найти слоги в этом

(Обновление копии с , что вопрос)

Я могу классифицировать символы, но в сценарии телугу один слог может содержать один или несколько символов, и при извлечении символов из файла слог разделяется и не может объединять их, поэтому, пожалуйста, помогите мне, если кто-нибудь знает о категоризации текста сценария на телугу

Ответы [ 2 ]

2 голосов
/ 18 октября 2012

В телугу слоги формируются несколькими способами

  • V (в начале слова в самостоятельной форме)
  • C + V (согласный + гласный в зависимой форме)
  • C + C + V (согласный + согласный + гласный)
  • C + C + C + V согласный + согласный + гласный)

Если вы используете английский сценарий для транслитерации в телугу (например, инструмент транслитерации Google), возможно, многие английские символы образуют один слог.

Рассмотрим "stree" (введите это в инструменте транслитерации Google), и это образует всего один слог на телугу. Вы можете проанализировать эту строку телугу на http://rishida.net/tools/analysestring/index.php?list=స్త్, чтобы понять, как образованы слоги телугу.

У вас есть два варианта решения этой проблемы

[1] Определите последовательность кодов, если вы вводите текст на языке телугу. И сгруппируйте последовательности кодовых точек в зависимости от того, когда заканчивается гласный и начинается новый syllalbe.

[2] Если вы вводите текст на английском языке, который отображается на символы телугу, то вам нужно выяснить, когда разбить последовательность на несколько слогов.

2 голосов
/ 31 октября 2009

Я не говорю на телугу (извините!), Но я понимаю, что это слоговый язык, в котором слоги состоят из гласных («ачу») и согласных («галлу»). Итак, как объясняет wikipedia , вы получите «шестьдесят символов, из которых 16 - гласные, три модификатора гласных и сорок один согласный». Эта страница показывает соответствие Unicode: гласные от 0C05 до 0C14 (а также 0C60 и 0C61, «вокальные» RR и LL); согласные от 0C15 до 0C39; другие коды - это множество «знаков, знаков препинания, цифр» и т. д.

Полная таблица возможных слогов находится на в этом PDF , но я признаюсь, что сценарий сбивает меня с толку, так как мне трудно сказать, что к чему. Если вы говорите на телугу или имеете легкий доступ к людям, которые делают это, вам будет легче рассказать, как вырезать слоги из потока символов телугу, чем я. Python не имеет к этому никакого отношения - это всего лишь один из многих языков программирования, который может позволить вам реализовать любой алгоритм , необходимый вам для слогового определения, но он определенно не имеет такого встроенного алгоритма. ! -)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...