Question

Я пытался извлечь текст из PDF, он отлично работает для английского, но не для индийских языков, таких как хинди, тамильский, малаялам и т. Д. См. Пример ниже, весь текст, выделенный жирным шрифтом в извлеченном контенте, неверен.Работает ли Tika с неанглийскими языками?

Оригинальный текст:

எல்இடி புத்தாண்டு பரிசாக, எல்இடி டிவி, சினிமா டிக்கெட், கம்ப்யூட்டர் மானிட்டர், மாற்றுத்திறனாளிகளுக்கான உதிரிப்பாகங்கள் உள்ளிட்ட 23 வகை பொருட்கள், சேவைகளின்100 ஜிஎஸ்டி வரி இன்று முதல் அமலுக்கு வந்தது.

Извлеченный текст:

பத்தாண்ட பத்தாண்ட பரிசாக, எல்இடடவ , சனிமா டக்ககட, ் கம்ப்யட்டர் மானிட்டர, ்

ம10 உள்ளிட்ட 23
வகககபாரடக்ள், சசகவகளின்

ககறக்கப்படட் ஜஎஸ்ட வரி இன்றமதல் அமலக்கவந்தத .

ОБНОВЛЕНИЕ:

Если я преобразую PDF в JPG и использую TesseractOCRParser и упомяну язык как Тамильский , тогда он работает намного лучше, чем PDFParser

Apache Tika неправильно извлекает текст из PDF для индийских языков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache Tika неправильно извлекает текст из PDF для индийских языков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы