Я прочитал содержимое файла в python и хочу избавиться от всех ссылок, которые придерживаются того же общего формата:
(Author et al., .............. \nGoogle Scholar) # there could be many '\nGoogle Scholar's within the brackets
Введение Эндокринные клетки в островках поджелудочной железы
Лангерганс секретирует инсулин и глюкагон в ответ на глюкозу
возмущения для поддержания гомеостаза глюкозы. Инсулин-секретирующий
бета-клетки проявляют морфологические, функциональные и молекулярные
вариации, предполагая, что они могут состоять из подгрупп населения с
специализированные задачи и физиологические ответы (Гутьеррес этал.,
2017Гутьеррес Г.Д. Громада Дж. Сассел Л. Неоднородность
бета-клетка поджелудочной железы. Жене. 2017; 8: 22Crossref \ nPubMed \ nScopus
(11) \ nGoogle Scholar, Roscioni et al., 2016Roscioni S.S. Migliorini A.
Гегг М. Ликерт Х. Влияние островковой архитектуры на -клетку
неоднородность, пластичность и функции. Нат. Преподобный эндокринол. 2016; 12:
695-709Crossref \ nPubMed \ nScopus (36) \ n Google Scholar). Особенности
гетерогенность бета-клеток включает чувствительность к глюкозе и секреторность
активность ..... Визуализация транскриптов в поджелудочной железе, однако, имеет
было невозможно без использования специализированных методов, таких как
фотопереключаемые красители (Cui et al., 2018Cui Y. Hu D. Markillie L.M.
Крислер В.Б. Gaffrey M.J. Ansong C. Sussel L. Orr G. Колебания
Флуоресцентная гибридизация на основе локализации на основе визуализации (fliFISH)
для точного обнаружения и подсчета копий РНК в одном
клетки. Нуклеиновые кислоты Res. 2018; 46: e7Crossref \ nPubMed \ nScopus
(2) \ nGoogle Scholar). Мы оптимизировали стандартную ткань smFISH
протокол (Любимова и др., 2013. Любимова А., Ицковиц С., Юнкер Ю.П.
Фан З.П. Wu X. van Oudenaarden A. Обнаружение мРНК одной молекулы и
считая в ткани млекопитающих. Нат. Protoc. 2013; 8:
1743-1758Crossref \ nPubMed \ nScopus (62) \ nGoogle Scholar)
существенно увеличить период денатурации мРНК, что
предшествует этапам гибридизации зонда, от 5 минут до не менее 3 часов.
Желаемый вывод
Введение Эндокринные клетки в островках поджелудочной железы
Лангерганс секретирует инсулин и глюкагон в ответ на глюкозу
возмущения для поддержания гомеостаза глюкозы. Инсулин-секретирующий
бета-клетки проявляют морфологические, функциональные и молекулярные
вариации, предполагая, что они могут состоять из подгрупп населения с
специализированные задачи и физиологические ответы. Особенности бета-клетки
гетерогенность включает чувствительность к глюкозе и секреторную активность
..... Визуализация стенограммы в поджелудочной железе, однако, была
невозможно без использования специализированных методов, таких как
фотопереключаемые красители. Мы оптимизировали стандартную ткань smFISH
протокол, существенно увеличив период денатурации мРНК,
который предшествует этапам гибридизации зонда, от 5 минут по крайней мере
3ч.
Я не могу найти регулярное выражение, которое пропускает все ссылки за один раз, поэтому мне пришлось сделать это в 2 частях:
- Найти все местоположения каждого вхождения \ nGoogle Scholar).
- Из каждого местоположения пройдите назад до появления соответствующей открывающей скобки, а затем пропустите символы между этими индексами.
Я пытаюсь сделать это следующим образом:
def remove(test_str):
regex=re.compile('\\nGoogle Scholar\)')
starts=[]
ends=[]
ret=''
for end in regex.finditer(test_str): #find all 'Google Scholar)'
ends.append(m.end())
for e in ends: #find all starting brackets
i=e
while True:
if bool(re.match('\(\D+',test_str[i-2:i])):
starts.append(i-2)
break
else:
i-=1
start=test_str[:starts[0]] #omit all characters in between
starts=starts[1:]
end=test_str[ends[-1]:]
ends=ends[:-1]
for i,j in zip(starts,ends):
ret=ret+test_str[j:i]
return start+ret+end
Однако эта стратегия терпит неудачу, так как регулярное выражение, которое я использую, чтобы найти каждую начальную скобку (\(\D+
), недостаточно точно - часто в ссылках есть закрытые скобки, например,
(Cui et al., 2018Cui Y. Hu D. Markillie L.M. Chrisler W.B. Gaffrey M.J.
Ансонг С. Сассель Л. Орр Г. Флуктуационная локализация на основе визуализации
гибридизация с флуоресцентным происхождением (fliFISH) для точного обнаружения и
подсчет копий РНК в отдельных клетках. Нуклеиновые кислоты Res. 2018; 46:
e7Crossref \ nPubMed \ nScopus (2) \ nGoogle Scholar)
Следовательно, в этом случае поиск правильной открывающей скобки преждевременно прекращается ....
Кто-нибудь может порекомендовать хороший способ последовательного удаления всех ссылок?