Итак, я новичок в Python и хочу сделать следующее.
У меня есть файл с кучей предложений, который выглядит следующим образом:
- [frank bora three](noun) [go](action) level [three hundred sixty](value)
- [jack blad four](noun) [stay](action) level [two hundred eleven](value)
Я хочу чтобы иметь возможность воспроизвести файл, который выглядит следующим образом:
text:'frank bora three', entityType:'noun'
text:'jack blad four', entityType:'noun'
text:'go', entityType:'action'
text:'stay', entityType:'action'
text:'three hundred sixty', entityType:'value'
text:'two hundred eleven', entityType:'value'
Мне нужно удалить первую гифу, идентифицировать каждый текст, заключенный в квадратные скобки, как текст, а затем их сущность. будет то, что мы имеем между круглыми скобками, который следует за текстом между квадратными скобками. дело в том, что у нас могут быть некоторые слова, которые не заключены в квадратные скобки и которые следует игнорировать.
Подход. Первое, что я попытался сделать, это поместить все предложения в массив:
import re
with open('new_file.txt') as f1:
lines = f1.readlines()
array_length = len(lines)
for i in range(array_length):
lines[i]=re.sub(r"\b/-\w+", "", lines[i])
print (lines[0])
После этого я попытался удалить гимф, используя re, но у меня это не сработало, при попытке распечатать массив гифы все еще были там.
Надеюсь, мой вопрос понятен.
Заранее спасибо,