Question

У меня есть следующая строка:

{"name":"INPROCEEDINGS","__typename":"PublicationConferencePaper"},"hasPermiss
ionToLike":true,"hasPermissionToFollow":true,"publicationCategory":"researchSu
mmary","hasPublicFulltexts":false,"canClaim":false,"publicationType":"inProcee
dings","fulltextRequesterCount":0,"requests":{"__pagination__":
[{"offset":0,"limit":1,"list":[]}]},"activeFiguresCount":0,"activeFigures":
{"__pagination__":[{"offset":0,"limit":100,"list":
[]}]},"abstract":"Heterogeneous Multiprocessor System-on-Chip (MPSoC) are 
progressively becoming predominant in most modern mobile devices. These 
devices are required to perform processing of applications within thermal,
 energy and performance constraints. However, most stock power and thermal
 management mechanisms either neglect some of these constraints or rely on 
frequency scaling to achieve energy-efficiency and temperature reduction on 
the device. Although this inefficient technique can reduce temporal thermal
 gradient, but at the same time hurts the performance of the executing task.
 In this paper, we propose a thermal and energy management mechanism which 
achieves reduction in thermal gradient as well as energy-efficiency through 
resource mapping and thread-partitioning of applications with online 
optimization in heterogeneous MPSoCs. The efficacy of the proposed approach is 
experimentally appraised using different applications from Polybench benchmark 
suite on Odroid-XU4 developmental platform. Results show 28% performance 
improvement, 28.32% energy saving and reduced thermal variance of over 76%
 when compared to the existing approaches. Additionally, the method is able to
 free more than 90% in memory storage on the MPSoC, which would have been 
previously utilized to store several task-to-thread mapping 
configurations.","hasRequestedAbstract":false,"lockedFields"

Я пытаюсь извлечь подстроку между "abstract": " и ", "hasRequestedAbstract" .Для этого я использую следующий код:

    import requests
    #some more codes here........
    to_visit_url = 'https://www.researchgate.net/publication/328749434_TEEM_Online_Thermal-_and_Energy-Efficiency_Management_on_CPU-GPU_MPSoCs'
    this_page = requests.get(to_visit_url)
    content = str(page.content, encoding="utf-8")
    abstract = re.search('\"abstract\":\"(.*)\",\"hasRequestedAbstract\"', content)
    print('Abstract:\n' + str(abstract))

Но в абстрактной переменной оно содержит значение None.В чем может быть проблема?Как я могу получить подстроку, как упомянуто выше?

Примечание. Хотя кажется, что я могу прочитать его как объект JSON, но это не вариант, поскольку приведенный выше пример текста является лишь небольшой частью полного HTMLсодержимое, из которого очень трудно извлечь объект JSON.

PS Полное содержимое страницы, например page.content, можно загрузить здесь: https://docs.google.com/document/d/1awprvKsLPNoV6NZRmCkktYwMwWJo5aujGyNwGhDf7cA/edit?usp=sharing

Или источниктакже может быть загружен непосредственно с URL: https://www.researchgate.net/publication/328749434_TEEM_Online_Thermal-_and_Energy-Efficiency_Management_on_CPU-GPU_MPSoCs

Stael · Answer 1 · 07 декабря 2018

когда вы делаете requests.get(...), вы должны получить объект запроса?

эти объекты действительно умны, и вы можете использовать встроенный метод .json(), чтобы вернуть строку, которую вы опубликовали ввопрос как словарь Python.

, хотя я отмечаю, что ссылка, которую вы разместили, не указывает ни на что подобное, а на полный HTML-документ.Если вы пытаетесь разобрать такой сайт, вы должны вместо этого взглянуть на beautifulsoup.(https://www.crummy.com/software/BeautifulSoup/)

Somdip Dey · Answer 2 · 11 декабря 2018

Этот ответ не использует регулярное выражение (регулярное выражение), но выполняет свою работу.Ответьте следующим образом:

import re
import requests

def fetch_abstract(url = "https://www.researchgate.net/publication/328749434_TEEM_Online_Thermal-_and_Energy-Efficiency_Management_on_CPU-GPU_MPSoCs"):
    test_requests = requests.get(url)
    index = 0
    inner_count = 0
    while index < len(test_requests.text):
            index = test_requests.text.find('[Show full abstract]</a><span class=\"lite-page-hidden', index)
            if index == -1:
                break
            inner_count += 1
            if inner_count == 4:
                #extract the abstract from here -->
                temp = test_requests.text[index-1:]
                index2 = temp.find('</span></div><a class=\"nova-e-link nova-e-link--color-blue')
                quote_index = temp.find('\">')
                abstract = test_requests.text[index + quote_index + 2 : index - 1 + index2]
                print(abstract)
            index += 52

if __name__ == '__main__':
    fetch_abstract()

Результат:

Гетерогенная многопроцессорная система на кристалле (MPSoC) постепенно становится преобладающей в большинстве современных мобильных устройств.Эти устройства требуются для выполнения обработки приложений в пределах температурных, энергетических и эксплуатационных ограничений.Однако большинство стандартных механизмов управления мощностью и тепловым режимом либо игнорируют некоторые из этих ограничений, либо полагаются на масштабирование частоты для достижения энергоэффективности и снижения температуры на устройстве.Хотя этот неэффективный метод может уменьшить временной тепловой градиент, но в то же время ухудшает производительность выполняемой задачи.В этой статье мы предлагаем механизм управления температурой и энергопотреблением, который обеспечивает снижение температурного градиента, а также энергоэффективность за счет сопоставления ресурсов и разделения потоков приложений с онлайн-оптимизацией в гетерогенных MPSoC.Эффективность предложенного подхода оценивается экспериментально с использованием различных приложений из набора тестов Polybench на платформе разработки Odroid-XU4.Результаты показывают улучшение производительности на 28%, энергосбережение на 28,32% и снижение тепловых колебаний более чем на 76% по сравнению с существующими подходами.Кроме того, этот метод позволяет освободить более 90% памяти в MPSoC, которая ранее использовалась для хранения нескольких конфигураций сопоставления задач с потоками.

kde713 · Answer 3 · 07 декабря 2018

re.search не возвращает проанализированный список результатов.Возвращает SRE_Match объект.Если вы хотите получить соответствующий список, вам нужно использовать метод re.findall.

Протестированный код

import re
import requests

test_pattern = re.compile('\"abstract\":\"(.*)\",\"hasRequestedAbstract\"')
test_requests = requests.get("https://www.researchgate.net/publication/328749434_TEEM_Online_Thermal-_and_Energy-Efficiency_Management_on_CPU-GPU_MPSoCs")

print(test_pattern.findall(test_requests.text)[0])

Результат

'Heterogeneous Multiprocessor System-on-Chip (MPSoC) are progressively becoming predominant in most modern mobile devices. These devices are required to perform processing of applications within thermal, energy and performance constraints. However, most stock power and thermal management mechanisms either neglect some of these constraints or rely on frequency scaling to achieve energy-efficiency and temperature reduction on the device. Although this inefficient technique can reduce temporal thermal gradient, but at the same time hurts the performance of the executing task. In this paper, we propose a thermal and energy management mechanism which achieves reduction in thermal gradient as well as energy-efficiency through resource mapping and thread-partitioning of applications with online optimization in heterogeneous MPSoCs. The efficacy of the proposed approach is experimentally appraised using different applications from Polybench benchmark suite on Odroid-XU4 developmental platform. Results show 28% performance improvement, 28.32% energy saving and reduced thermal variance of over 76% when compared to the existing approaches. Additionally, the method is able to free more than 90% in memory storage on the MPSoC, which would have been previously utilized to store several task-to-thread mapping configurations.'

Чтение подстроки в кавычках из массивной строки в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение подстроки в кавычках из массивной строки в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы