Чтобы обучить распознаватель именованных сущностей с помощью Spacy, я хочу передать DSV (файл с разделителями-разделителями) в TSV, где за 3 символами следует новая строка, для этого я использовал следующий файл с открытым исходным кодом:
https://www.clips.uantwerpen.be/conll2002/ner/data/ned.train
Я использовал python для этого.
f = open(r"saved/file/location", 'r')# input file
tsv=""
for line in f:
line = line.replace(" ", "\t")
tsv=tsv+line
print(tsv[3200:3600])
text_file = open(r"saved/file/location/dutchspacytrain.tsv", "wt")
n = text_file.write(tsv)
text_file.close()
Если я печатаю часть tsv [3200: 3600] в консоли python, все выглядит нормально, однако, когда я открываю его в Excel, вывод файла выглядит не так, как нужно:
Вывод в Excel
Я думаю, это как-то связано с символом «, но я не знаю, как это исправить.
ура,
Кольштейн