Мне нужно проанализировать текст из PDF, но форматирование PDF приводит к крайне ненадежному интервалу. В результате я вынужден игнорировать пробелы и иметь непрерывный поток непробельных символов.
Любые предложения о том, как разобрать строку и вставить пробелы обратно в строку, угадав?
Я использую рубин. Или я должен сказать, что я использую ruby?
Редактировать: я вытащил текст, используя PDF-ридер. Некоторые из файлов PDF хорошо отформатированы, а некоторые нет. Пример текста, смешанного с позиционированием:
.7aspe-5.5cts-715.1o0.6f-708.5f-0.4aces-721.4that-716.3are-720.0i-1.8mportant-716.3in-713.9soc-5.5i-1.8alcommunica6.6tion6.3.-711.6Althoug6.3h-708.1m-1.9od6.3els-709.3o6.4f-702.8f5.4ace-707.9proc6.6essing-708.2haveproposed-611.2ways-615.5to-614.7deal-613.2with-613.0these-613.9diff10.4erent-613.7tasks,-611.9it-617.1remainsunclear-448.0how-450.7these-443.2mechanisms-451.7might-446.7be-447.7implemented-447.2in-450.3visualOne-418.9model-418.8of-417.3human-416.4face-421.9processing-417.5proposes-422.7that-419.8informa-tion-584.5is-578.0processed-586.1in-583.1specialised-584.7modules-577.0(Breen-584.4et-582.9al.,-582.32002;Bruce-382.1and-384.0Y92.0oung,-380.21986;-379.2Haxby-379.9et-380.5al.,-
и если я печатаю только строковые данные (я добавил возврат в конце каждой строки, чтобы сохранить его от
испортить макет здесь:
Distinctrepresentationsforfacialidentityandchangeableaspectsoffacesinthehumantemporal
lobeTimothyJ.Andrews * andMichaelP.EwbankDepartmentofPsychology, WolfsonResearchInstitute,
UniversityofDurham, UKReceived23December2003; revised26March2004; accepted27July2004Availab
leonline14October2004Theneuralsystemunderlyingfaceperceptionmustrepresenttheunchanging
featuresofafacethatspecifyidentity, aswellasthechangeableaspectsofafacethatfacilitates
ocialcommunication.However, thewayinformationaboutfacesisrepresentedinthebrainremainsc
ontroversial.Inthisstudy, weusedfMRadaptation (thereductioninfMRIactivitythatfollowsthe
repeatedpresentationofidenticalimages) toaskhowdifferentface-andobject-selectiveregionsofvisualcortexcontributetospecificaspectsoffaceperception '
Данные выводятся обратными вызовами, поэтому, если я печатаю каждую строку, когда она возвращается, она выглядит следующим образом:
The
-571,3
нейронная
-573,7
система
-577,4
underly
13,9
ING
-577,2
лицо
-573,0
перхлорэтилен
13,7
eption
-574,9
должны
-572,1
магнезии
20,8
ESENT
-577,0
The
unchangin
14,4
г
-538,5
featur
16,5
ы
-529,5
из
-536,6
а
-531,4
лицо
При рассмотрении выглядит, что истинные пробелы - это большие отрицательные числа <-300, а ложные пробелы - намного меньшие положительные числа. Спасибо, парни. Просто то, что я задаю вопрос, явно помогло мне ответить на него! </p>