Automati c wget загрузка бумаги в формате pdf - текст заголовка / html; кодировка = UTF-8 - PullRequest
0 голосов
/ 15 января 2020

Я ищу способ загрузки pdf-файла из онлайн-библиотеки с помощью python wget. пример URL может https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8006280

Полученный тип запроса, полученный по запросу, представляет собой 'text / html; кодировка = UTF-8' . Использование функции загрузки приводит к штампу. jsp файл, содержащий некоторое содержание html - есть ли у кого-нибудь способ добраться до pdf?

Спасибо, ребята

получено html :

<script type="text/javascript" src="/assets/vendor/jquery/jquery.js?cv=20191217_000002" charset="utf-8"></script>

<!-- Fingerprint Cookie -->
<script type="text/javascript" src="/assets/vendor/js-cookie/src/js.cookie.js?cv=20191217_000002"></script>
<script type="text/javascript" src="/assets/vendor/fingerprintjs2/fingerprint2.js?cv=20191217_000002"></script>
<script type="text/javascript" src="/assets/js/lib/core/fingerprint.js?cv=20191217_000002"></script>
<script type="text/javascript">Xplore.Fingerprint.init();</script>

<!-- BEGIN: tealium in stamp/stamp.jsp. NOTE stamp.jsp does not use template.jsp, nor include common/assets.jsp, so including tealiumAnalytics.jsp here -->








		<!-- BEGIN: TealiumAnalytics.jsp -->
		
		
		
		
		
		
		
		
		
		
		
		
			
				
			
			
			
			
		
		
		
		
		
		

			<script type ="text/javascript">
 				// tealium config vars
				var TEALIUM_CONFIG_TAGGING_ENABLED = true;		
				var TEALIUM_CONFIG_CDN_URL = '//tags.tiqcdn.com/utag/';
				var TEALIUM_CONFIG_ACCOUNT_PROFILE_ENV = 'ieeexplore/main/prod';
				
				// tealium utag_data values for user 
				var TEALIUM_userType = 'Anonymous';
				var TEALIUM_userInstitutionId = '';
				var TEALIUM_userId = '';
				var TEALIUM_user_third_party = '';
				
				var TEALIUM_products = '';
			</script>


			<script type="text/javascript">
			// asynchronously load tealium's utag.js , which declares tealium JS variables like; utag_data, utag
			(function(a,b,c,d){
			
				a=TEALIUM_CONFIG_CDN_URL + TEALIUM_CONFIG_ACCOUNT_PROFILE_ENV + '/utag.js';
				b=document;c='script';d=b.createElement(c);d.src=a;
				d.type='text/java'+c;d.async=true;
				a=b.getElementsByTagName(c)[0];a.parentNode.insertBefore(d,a);
			})();
			</script>

			<script type="text/javascript" src="/assets/js/analytics/tealiumTagsData.js?cv=20191217_000002"></script>
			<script type="text/javascript" src="/assets/js/analytics/tealiumAnalytics.js?cv=20191217_000002"></script>


		
 		
		<!-- END: TealiumAnalytics.jsp -->
			 

<!-- END: tealium in stamp/stamp.jsp -->
		



<html lang="en-US">
	<head>	
		<title>IEEE Xplore Full-Text PDF: </title>
		<style>
			html {
			    margin: 0;
			    padding: 0;
			    overflow: hidden;
			}
			body {
			    margin: 0;
			    padding: 0;
			}
			iframe {
				display: block;
				position: fixed;
				width: 100%;
				height: 100%;
			}
		</style>
	</head>
	<body>
		<iframe src="https://ieeexplore.ieee.org/ielx7/6979/8326752/08006280.pdf?tp=&arnumber=8006280&isnumber=8326752&ref=" frameborder=0></iframe>
	</body>
</html>

1 Ответ

2 голосов
/ 15 января 2020

Боюсь, что URL, на который вы указываете, не будет работать.

Просматривая сетевые сообщения (например, используя Chrome Inspection), я действительно увидел правильную ссылку .pdf: https://ieeexplore.ieee.org/ielx7/6979/8326752/08006280.pdf

>>> import wget
>>> url = "https://ieeexplore.ieee.org/ielx7/6979/8326752/08006280.pdf"
>>> response = wget.download(url=url, out="/path/to/your/directory")
100% [..........................................................................] 2817205 / 2817205>>>
...