Я все еще новичок в таких вещах, как bash и perl, и мне нужна помощь с задачей. Я нахожусь в процессе подготовки (добавления и редактирования) большого корпуса кхмерского Unicode для использования с патчем для разрыва слов в кхмерском ICU.
До сих пор я не смог найти стабильного решения для автоматического удаления всех английских букв и знаков препинания (оставив только кхмерский).
Мне сказали, что Perl может быть подходом, но я не уверен, с чего начать (я на самом деле не программист).
В прошлом я использовал скрипт bash, но результаты были не идеальными (в итоге мне пришлось проверять список вручную и удалять нехмерские символы).
Вот несколько советов, которые у меня были в прошлом:
LC_ALL=POSIX sort khmerdict.txt | sed '/[[:punct:]]/d' > khmer-sorted.txt
Что должно убрать пунктуацию ... но по какой-то причине он удалил много строк в моем файле, так что это было бесполезно.
А это:
sed -e 's/[a-zA-Z]//g' -e 's// /g' -e 's/\t/ /g' -e 's/[«|»|:|;|.|,|(|)|-|?|។|”|“]//g' -e 's/[0-9]//g' -e 's/ /\n/g' -e 's/០//g' -e 's/១//g' -e 's/២//g' -e 's/៣//g' -e 's/៤//g' -e 's/៥//g' -e 's/៦//g' -e 's/៧//g' -e 's/៨//g' -e 's/៩//g' dictionary.txt | \
Это была еще одна попытка удалить английские буквы, знаки препинания и все кхмерские числа ... но, как я уже сказал, это не сработало с идеальной точностью.
У кого-нибудь есть идея стабильного решения для этого, которое бы хорошо работало с кхмерским Unicode? Может быть, есть способ удалить все, используя диапазон символов Unicode ( Кхмерское отображение Unicode PDF )?
Если вы хотите что-то попробовать в словаре, вы можете скачать тестовую версию здесь: http://www.sbbic.org/Khmer-Unicode-Wordlist.zip
А вот короткий список, с которым можно поиграться:
កំណត់
--
ស្រូវ
ទម្លាប់
}
é
"សំយុង
"លើក"
"ព"
"ផ"
ទស្សន--
–សម្ភាស
ចម្ងាយahead
ទាត់១
Спасибо,
Nathan