Я пытался извлечь текст из PDF, он отлично работает для английского, но не для индийских языков, таких как хинди, тамильский, малаялам и т. Д. См. Пример ниже, весь текст, выделенный жирным шрифтом в извлеченном контенте, неверен.Работает ли Tika с неанглийскими языками?
Оригинальный текст:
எல்இடி புத்தாண்டு பரிசாக, எல்இடி டிவி, சினிமா டிக்கெட், கம்ப்யூட்டர் மானிட்டர், மாற்றுத்திறனாளிகளுக்கான உதிரிப்பாகங்கள் உள்ளிட்ட 23 வகை பொருட்கள், சேவைகளின்100 ஜிஎஸ்டி வரி இன்று முதல் அமலுக்கு வந்தது.
Извлеченный текст:
பத்தாண்ட பத்தாண்ட பரிசாக, எல்இடடவ , சனிமா டக்ககட, ் கம்ப்யட்டர் மானிட்டர, ்
ம10 உள்ளிட்ட 23
வகககபாரடக்ள், சசகவகளின்
ககறக்கப்படட் ஜஎஸ்ட வரி இன்றமதல் அமலக்கவந்தத .
ОБНОВЛЕНИЕ:
Если я преобразую PDF в JPG и использую TesseractOCRParser и упомяну язык как Тамильский , тогда он работает намного лучше, чем PDFParser