Я бы хотел изучить основы кодировок, символов и текста. Понимание этого важно для работы с большим набором текста, будь то файлы журнала или источник текста для построения алгоритмов коллективного интеллекта. Мои текущие знания довольно просты: что-то вроде «Пока я использую UTF-8, я в порядке».
Я не говорю, что мне нужно сразу же изучать сложные темы. Но мне нужно знать:
- Знание уровня кодирования в битах и байтах.
- Символы и алфавиты не используются на английском языке.
- Многобайтовые кодировки. (Я понимаю некоторые китайские и японские языки. И их анализ важен.)
- Регулярные выражения.
- Алгоритм обработки текста.
- Разбор естественных языков.
Мне также нужно понимание математики и корпусной лингвистики. Текущая и будущая сеть (семантическая, интеллектуальная, в режиме реального времени) нуждается в обработке, анализе и анализе большого текста.
Я ищу некоторые ресурсы (может быть, книги?), Которые помогут мне начать с некоторых пуль. (я нахожу много полезных обсуждений регулярных выражений здесь о переполнении стека. Поэтому вам не нужно предлагать ресурсы по этой теме.)