Я использую pdftotext для преобразования текста на испанском языке.Символы с акцентами или тильдами выводятся систематическим образом, что требует дальнейшего преобразования.Акценты и тильды отображаются в преобразованном тексте в правильном положении, но без буквы.Буква почти всегда появляется в конце строки вывода.Когда это не так, я могу починить их вручную.
Например, pdf-предложение
¿Por qué?
становится
¿Por qu´? e
Я достаточно знаю о sed, awk и grep, чтобы думать, что это можно сделать с помощью некоторой комбинациите - и что это займет у меня много времени.Я намерен использовать это для обработки всех файлов PDF в папке.
Предложения отображаются в испано-английских парах в отдельных строках.Я хотел бы объединить их с помощью точки с запятой, формат импорта моего приложения флэш-карты (Anki).Удалите все содержимое, не являющееся парами предложений испано-английского языка.
Например, преобразуйте этот вывод
B:
¿Por qu´? e
Why?
в
¿Por qué?;Why?
, где есть несколько акцентов,тильды или их комбинация, буквы в конце строки расположены в правильном порядке и могут быть разделены запятыми.Например, предложение в формате pdf
Sí pero vi en la televisión que iba a llover.
становится
S´ pero vi en la televisi´n que iba a llover. ı, o
, или S'pero vi en la televisi´n que iba llover.ı o
Формат выходного файла
Предложения всегда имеют пунктуацию, либо "!", "?"или же ".".Для незнакомых с испанским языком гласные (aeiou) являются единственными буквами, которые могут иметь ударение, буква «n» - единственная, которая может иметь тильду, и 2 специальных символа могут быть найдены как в верхнем, так и в нижнем регистре букв.
Первая строка вывода может содержать уровень и заголовок файла PDF.Уровень и заголовок всегда предшествуют первому вхождению «A:»
Меня не интересует строка «Словарь слов» или что-либо, что появляется в любых последующих строках.
pdftotext run withКодировка UTF8.Моя ОС - Linux Mint 9, которая основана на Ubuntu 10.04
Ниже приведены два примера выходных файлов.
Выход 1
Elementary - Credit Card A:
(B0089)
Me da la cuenta, por favor.
Bring me the check, please.
B:
Se la doy enseguida.
I’ll bring it to you right away.
B:
Perd´n se˜or, pero no aceptamos tarjeta. o n
Sorry sir, but we don’t take cards.
A:
¿No aceptan ninguna tarjeta de cr´dito? e
You don’t take any credit cards?
Key Vocabulary
tarjeta cr´dito e cuenta
Noun Noun Noun
card credit bill
Выход 2
Elementary - My computer is not working A: ¡No puede ser!
It can’t be!
(B0079)
B:
¿Qu´ pasa? e
What happened?
A:
Mi computadora no est´ funcionando. a
My computer is not working.
B:
Rein´ ıciala.
Restart it.
Key Vocabulary
funcionar
Verb
to work