Как извлечь результат из python в файл xls - PullRequest
0 голосов
/ 06 августа 2020

Я новичок в python, и мне нужно извлечь ссылки из научной c литературы. Ниже приведен код, который я использую

from refextract import extract_references_from_url
references = extract_references_from_url('https://arxiv.org/pdf/1503.07589.pdf')
print(references)

Итак, пожалуйста, расскажите мне, как извлечь эту печатную информацию в файл Xls. Большое вам спасибо.

Ответы [ 3 ]

3 голосов
/ 06 августа 2020

Вы можете использовать библиотеку pandas для записи ссылок в Excel.

from refextract import extract_references_from_url
import pandas as pd

references = extract_references_from_url('https://arxiv.org/pdf/1503.07589.pdf')
print(references)

# convert to pandas dataframe
dfref = pd.DataFrame(references)

# write dataframe into excel
dfref.to_excel('./refs.xlsx')
1 голос
/ 06 августа 2020

Изучив документацию по refextract здесь , я обнаружил, что ваша переменная references является словарем. Для преобразования такого словаря в python вы можете использовать Pandas следующим образом:

import pandas as pd
# create a pandas dataframe using a dictionary
df = pd.DataFrame(data=references, index=[0])
# Take transpose of the dataframe 
df = (df.T)
# write the dictionary to an excel file
df.to_excel('extracted_references.xlsx')
1 голос
/ 06 августа 2020

Вам следует взглянуть на xlsxwriter, модуль для создания файлов Excel. Тогда ваш код может выглядеть так:

import xlsxwriter
from refextract import extract_references_from_url
workbook = xlsxwriter.Workbook('References.xlsx')
worksheet = workbook.add_worksheet()

references = extract_references_from_url('https://arxiv.org/pdf/1503.07589.pdf')

row = 0
col = 0

worksheet.write(references)

workbook.close

(изменено на основе https://xlsxwriter.readthedocs.io/tutorial01.html)

...