Emacs: Как создать список слов для документа? - PullRequest
1 голос
/ 16 августа 2011

Я хотел бы создать индекс для документа LaTex с RefTex, следуя этому совету из руководства RefTex:

"... вы можете начать со списка слов документа и удалить всеслова, которые не должны быть проиндексированы. "(-> сбор фраз для файла индексных фраз).

Теперь я спрашиваю себя: как мне сгенерировать такой список слов для моего многофайлового документа LaTex?Я не могу найти ответ в руководстве по Emacs или в Интернете.Но Emacs должен уметь это делать, верно?

Спасибо за любые подсказки.

Ответы [ 2 ]

1 голос
/ 17 августа 2011

быстрый способ начать работу (в командной строке, а не в emacs):

sed 's/ */\n/g' < myDocument.txt | sort -f | uniq > wordListToEdit.txt

0 голосов
/ 17 августа 2011

Я нашел решение, которое не зависит от Emacs, но оно создает файл со всеми токенами, найденными в документе (ах). Я просто пометил все файлы .tex в своем проекте LaTeX в Emacs Dired, а затем использовал

! myshellscript

для запуска следующего сценария на всех из них. Вы найдете больше информации о nltk и Python здесь: http://www.nltk.org/

#!/usr/bin/env bash
echo $0
echo $1

python -c "\
from __future__ import division;\
import nltk, re, pprint;\
f = open('$1');\
raw = f.read();\
print nltk.word_tokenize(raw)\
" >> tok 
...