Я работаю в приложении NLP с WKS, и после обучения получил довольно низкие результаты.
Интересно, есть ли способ загрузить аннотированные документы с классификацией сущностей, как для поезда, так и для поезда? тестовые наборы, чтобы я мог автоматически детально определить, где находятся ключевые различия, и я могу их исправить.
Те, которые были аннотированы людьми, можно скачать в разделе «Активы» / «Документы» - > Загрузить наборы документов (кнопка справа).
Следующий код Python позволяет просматривать данные внутри него:
import json
import zipfile
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('documents.json') as arch:
data = arch.read()
documents = json.loads(data)
print(json.dumps(documents,indent=2,separators=(',',':')))
df_documentos = pd.DataFrame(None)
i = 0
for documento in documents:
df_documentos.at[i,'name'] = documento['name']
df_documentos.at[i,'text'] = documento['text']
df_documentos.at[i,'status'] = documento['status']
df_documentos.at[i,'id'] = documento['id']
df_documentos.at[i,'createdDate'] = '{:14.0f}'.format(documento['createdDate'])
df_documentos.at[i,'modifiedDate'] = '{:14.0f}'.format(documento['modifiedDate'])
i += 1
df_documentos
with zipfile.ZipFile(<YOUR DOWNLOADED FILE>, "r") as zip:
with zip.open('sets.json') as arch:
data = arch.read()
sets = json.loads(data)
print(json.dumps(sets,indent=2,separators=(',',':')))
df_sets = pd.DataFrame(None)
i = 0
for set in sets:
df_sets.at[i,'type'] = set['type']
df_sets.at[i,'name'] = set['name']
df_sets.at[i,'count'] = '{:6.0f}'.format(set['count'])
df_sets.at[i,'id'] = set['id']
df_sets.at[i,'createdDate'] = '{:14.0f}'.format(set['createdDate'])
df_sets.at[i,'modifiedDate'] = '{:14.0f}'.format(set['modifiedDate'])
i += 1
df_sets
Затем можно выполнить итерацию для чтения каждого один из JSON файлов, которые попадают в папку «gt» сжатого файла и получают подробное разбиение предложения, токенизацию и аннотацию.
Мне нужно иметь возможность загружать аннотации, полученные в результате модель машинного обучения поверх документов TEST, которые отображаются в «Модель машинного обучения» / «Производительность» / «Просмотр результатов декодирования». * 101 2 *
С этим я смогу определить конкретные c отклонения, которые могут привести к пересмотру словаря типов и критериев аннотаций.