Question

У меня есть текстовый файл ~ 500k строк с довольно случайным синтаксисом HTML. Примерная структура файла выглядит следующим образом:

content <title> title1 </title> more words 

title contents2 title more words <body> <title> title2 </title> 

<body><title>title3</title></body>

Я хочу извлечь все содержимое между тегами.

title1
title2 
title3

Это то, что я пробовал до сих пор:

    content_list = []

with open('C://Users//HOME//Desktop//Document_S//corpus_test//00.txt', errors = 'ignore') as openfile2:
    for line in openfile2:
        for item in line.split("<title>"):
            if "</title>" in item:
                content = (item [ item.find("<title>")+len("<title>") : ])
                content_list.append(content)

Но этот метод не позволяет получить все теги. Я думаю, что это может быть связано с тегами, которые связаны с другими словами, без пробелов. Ie. <body><title>.

Я рассмотрел замену каждого '<' и '>' пробелом и выполнил один и тот же метод, но если бы я это сделал, я бы получил «contents2» в качестве вывода.

Eric B · Answer 1 · 07 февраля 2020

Полагаю, вы могли бы сделать это с BeautifulSoup .

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('file_to_read.txt', 'r'), 'html.parser')
print(soup.find_all('title'))
# [<title> title1 </title>, <title> title2 </title>, <title>title3</title>]

print(soup.find_all('title')[0].text)
# ' title1 '

dohuuhung · Answer 2 · 07 февраля 2020

Попробуйте запустить:

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('C://Users//HOME//Desktop//Document_S//corpus_test//00.txt', 'r'), 'html.parser')
content_list = []
contents = soup.find_all('title')
for content in content:
    print(content.get_text().strip())
    content_list.append(content.get_text().strip())

ErnestBidouille · Answer 3 · 07 февраля 2020

Пример с вашим синтаксисом кода:

with open('file.txt', 'r') as file:
    for line in file:
        for item in line.split('<title>'):
            if '</title>' in item:
                content_list.append(str.strip(item.split('</title>')[0]))
print(content_list)

Но BeautifulSoup для меня в любом случае лучшая альтернатива.

Как извлечь содержимое между тегами в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь содержимое между тегами в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы