Ресурсы для обработки символов и текста (кодирование, регулярные выражения, НЛП) - PullRequest
2 голосов
/ 01 мая 2010

Я бы хотел изучить основы кодировок, символов и текста. Понимание этого важно для работы с большим набором текста, будь то файлы журнала или источник текста для построения алгоритмов коллективного интеллекта. Мои текущие знания довольно просты: что-то вроде «Пока я использую UTF-8, я в порядке».

Я не говорю, что мне нужно сразу же изучать сложные темы. Но мне нужно знать:

  • Знание уровня кодирования в битах и ​​байтах.
  • Символы и алфавиты не используются на английском языке.
  • Многобайтовые кодировки. (Я понимаю некоторые китайские и японские языки. И их анализ важен.)
  • Регулярные выражения.
  • Алгоритм обработки текста.
  • Разбор естественных языков.

Мне также нужно понимание математики и корпусной лингвистики. Текущая и будущая сеть (семантическая, интеллектуальная, в режиме реального времени) нуждается в обработке, анализе и анализе большого текста.

Я ищу некоторые ресурсы (может быть, книги?), Которые помогут мне начать с некоторых пуль. (я нахожу много полезных обсуждений регулярных выражений здесь о переполнении стека. Поэтому вам не нужно предлагать ресурсы по этой теме.)

Ответы [ 2 ]

3 голосов
/ 01 мая 2010
  • В дополнение к Википедии, Joel Spolskys статья на кодировка действительно хороша.
  • Эта бесплатная карта символов - хороший ресурс для всех символов Юникода.
  • Это регулярное выражение учебник может быть полезным.
  • В частности, НЛП и Японский , вы могли бы взгляните на этот японский НЛП проект.
  • Вкл обработка текста , это Открыть Исходный проект может быть полезен.
0 голосов
/ 01 мая 2010

Как обычно для большинства общих вопросов «Я хочу узнать о теме X», Википедия - хорошее место для начала:

http://en.wikipedia.org/wiki/Character_encoding

http://en.wikipedia.org/wiki/Natural_language_processing

...