У меня есть CSV-файл, в котором я хранил твиты из твиттера. Некоторые из них не на английском, для них я использую сервис AWS-translate.
Я преобразовываю свой CSV в фрейм данных, а затем пытаюсь создать новый столбец для переведенного текста твита, но для некоторых твитов из-за низкой достоверности определения языка он показывает ошибку, а код не продвигается вперед.
Я хочу пропустить эти ошибки, генерирующие текст, и хочу двигаться вперед в коде для дальнейшего выполнения.
Появляется следующая ошибка:
DetectedLanguageLowConfidenceException: произошла ошибка
(DetectedLanguageLowConfidenceException) при вызове
Операция TranslateText: запрос на перевод отклонен из-за низкого уровня
уверенность в автоопределении исходного языка 'fr'. Укажите действительный
исходный код языка для принудительного перевода.
Вот код, который я пытаюсь получить на выходе.
jap.csv - это мой сохраненный в твиттере CSV. используя этот CSV я создал переведенное имя df. 'text' - это столбцы, в которых присутствует текст твита, а translation_text - это новый столбец, в котором я храню переведенный текст.
import boto3
import aws_credentials
import pandas as pd
translate = boto3.client('translate',aws_access_key_id= aws_credentials.key_id,aws_secret_access_key= aws_credentials.secret_key,
region_name='us-west-2')
translated = pd.read_csv('jap.csv')
translated['Translated_text'] = translated['text']
translated['Orginal_text_lang']= 'en'
for i, row in translated.iterrows():
result = translate.translate_text(Text= row['text'],
SourceLanguageCode='auto', TargetLanguageCode="en")
T_text= result.get('TranslatedText')
So_lg= result.get('SourceLanguageCode')
translated.at[i,'Translated_text']= T_text
translated.at[i,'Orginal_text_lang']= So_lg
translated.to_csv('translated.csv')
Я хочу пропустить весь этот текст, который приводит к таким ошибкам, и код должен выполняться до конца и выдавать CSV для переведенного текста.