日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
用 Python 寫(xiě)了一個(gè)PDF轉(zhuǎn)換器,以后再也不用花錢轉(zhuǎn)了

 

前言

想必小伙伴都經(jīng)歷過(guò),當(dāng)你想要把PDF轉(zhuǎn)為WORD時(shí),自己打字赫赫甩在你眼前:

不充錢就想白嫖??想得美~

然而,博主是不會(huì)退縮的,畢竟迎難而上是傳統(tǒng)美德。于是,今天的主題出來(lái)了:用python寫(xiě)一個(gè)PDF轉(zhuǎn)WORD的小工具(基于某網(wǎng)站接口)。

一、思路分析

網(wǎng)上一搜,你可以發(fā)現(xiàn)很多PDF轉(zhuǎn)換的工具,其中不乏在線轉(zhuǎn)換的網(wǎng)站,比如這樣的:

那么,通過(guò)網(wǎng)站提供的測(cè)試接口,我們便可以通過(guò)爬蟲(chóng)模擬的方式實(shí)現(xiàn)轉(zhuǎn)換。

沒(méi)有錯(cuò)了~思路就是如此的簡(jiǎn)單明了,今天的主角便是:

https://app.xunjiepdf.com

通過(guò)抓包分析,知道這是一個(gè)POST請(qǐng)求,接下來(lái)用requests庫(kù)模擬即可。

需要注意的是,這個(gè)接口僅用于測(cè)試,所以可供轉(zhuǎn)換的頁(yè)面等都有所限制,如需更完整的功能還請(qǐng)支持原版。

二、我的代碼

正所謂一萬(wàn)個(gè)coders,就有一萬(wàn)種codes,以下為我的代碼,僅供參考。

導(dǎo)入相關(guān)庫(kù):

 
 
 
 
  1. import time 
  2. import requests 

定義PDF2Word類:

 
 
 
 
  1. #2020最新python學(xué)習(xí)資源分享:1156465813 
  2. class PDF2Word(): 
  3.     def __init__(self): 
  4.         self.machineid = 'ccc052ee5200088b92342303c4ea9399' 
  5.         self.token = '' 
  6.         self.guid = '' 
  7.         self.keytag = '' 
  8.      
  9.     def produceToken(self): 
  10.         url = 'https://app.xunjiepdf.com/api/producetoken' 
  11.         headers = { 
  12.                 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0', 
  13.                 'Accept': 'application/json, text/javascript, */*; q=0.01', 
  14.                 'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 
  15.                 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 
  16.                 'X-Requested-With': 'XMLHttpRequest', 
  17.                 'Origin': 'https://app.xunjiepdf.com', 
  18.                 'Connection': 'keep-alive', 
  19.                 'Referer': 'https://app.xunjiepdf.com/pdf2word/',} 
  20.         data = {'machineid':self.machineid} 
  21.         res = requests.post(url,headers=headers,data=data) 
  22.         res_json = res.json() 
  23.         if res_json['code'] == 10000: 
  24.             self.token = res_json['token'] 
  25.             self.guid = res_json['guid'] 
  26.             print('成功獲取token') 
  27.             return True 
  28.         else: 
  29.             return False 
  30.      
  31.     def uploadPDF(self,filepath): 
  32.         filename = filepath.split('/')[-1] 
  33.         files = {'file': open(filepath,'rb')} 
  34.         url = 'https://app.xunjiepdf.com/api/Upload' 
  35.         headers = { 
  36.                 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0', 
  37.                 'Accept': '*/*', 
  38.                 'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 
  39.                 'Content-Type': 'application/pdf', 
  40.                 'Origin': 'https://app.xunjiepdf.com', 
  41.                 'Connection': 'keep-alive', 
  42.                 'Referer': 'https://app.xunjiepdf.com/pdf2word/',} 
  43.         params = ( 
  44.                 ('tasktype', 'pdf2word'), 
  45.                 ('phonenumber', ''), 
  46.                 ('loginkey', ''), 
  47.                 ('machineid', self.machineid), 
  48.                 ('token', self.token), 
  49.                 ('limitsize', '2048'), 
  50.                 ('pdfname', filename), 
  51.                 ('queuekey', self.guid), 
  52.                 ('uploadtime', ''), 
  53.                 ('filecount', '1'), 
  54.                 ('fileindex', '1'), 
  55.                 ('pagerange', 'all'), 
  56.                 ('picturequality', ''), 
  57.                 ('outputfileextension', 'docx'), 
  58.                 ('picturerotate', '0,undefined'), 
  59.                 ('filesequence', '0,undefined'), 
  60.                 ('filepwd', ''), 
  61.                 ('iconsize', ''), 
  62.                 ('picturetoonepdf', ''), 
  63.                 ('isshare', '0'), 
  64.                 ('softname', 'pdfonlineconverter'), 
  65.                 ('softversion', 'V5.0'), 
  66.                 ('validpagescount', '20'), 
  67.                 ('limituse', '1'), 
  68.                 ('filespwdlist', ''), 
  69.                 ('fileCountwater', '1'), 
  70.                 ('languagefrom', ''), 
  71.                 ('languageto', ''), 
  72.                 ('cadverchose', ''), 
  73.                 ('pictureforecolor', ''), 
  74.                 ('picturebackcolor', ''), 
  75.                 ('id', 'WU_FILE_1'), 
  76.                 ('name', filename), 
  77.                 ('type', 'application/pdf'), 
  78.                 ('lastModifiedDate', ''), 
  79.                 ('size', ''),) 
  80.         res= requests.post(url,headers=headers,params=params,files=files) 
  81.         res_json = res.json() 
  82.         if res_json['message'] == '上傳成功': 
  83.             self.keytag = res_json['keytag'] 
  84.             print('成功上傳PDF') 
  85.             return True 
  86.         else: 
  87.             return False 
  88.          
  89.     def progress(self): 
  90.         url = 'https://app.xunjiepdf.com/api/Progress' 
  91.         headers = { 
  92.                 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0', 
  93.                 'Accept': 'text/plain, */*; q=0.01', 
  94.                 'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 
  95.                 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 
  96.                 'X-Requested-With': 'XMLHttpRequest', 
  97.                 'Origin': 'https://app.xunjiepdf.com', 
  98.                 'Connection': 'keep-alive', 
  99.                 'Referer': 'https://app.xunjiepdf.com/pdf2word/',} 
  100.         data = { 
  101.               'tasktag': self.keytag, 
  102.               'phonenumber': '', 
  103.               'loginkey': '', 
  104.               'limituse': '1'} 
  105.         res= requests.post(url,headers=headers,data=data) 
  106.         res_json = res.json() 
  107.         if res_json['message'] == '處理成功': 
  108.             print('PDF處理完成') 
  109.             return True 
  110.         else: 
  111.             print('PDF處理中') 
  112.             return False 
  113.          
  114.     def downloadWord(self,output): 
  115.         url = 'https://app.xunjiepdf.com/download/fileid/%s'%self.keytag 
  116.         res = requests.get(url) 
  117.         with open(output,'wb') as f: 
  118.             f.write(res.content) 
  119.             print('PDF下載成功("%s")'%output) 
  120.              
  121.     def convertPDF(self,filepath,outpath): 
  122.         filename = filepath.split('/')[-1] 
  123.         filename = filename.split('.')[0]+'.docx' 
  124.         self.produceToken() 
  125.         self.uploadPDF(filepath) 
  126.         while True: 
  127.             res = self.progress() 
  128.             if res == True: 
  129.                 break 
  130.             time.sleep(1) 
  131.         self.downloadWord(outpath+filename) 

執(zhí)行主函數(shù):

 
 
 
 
  1. if __name__=='__main__':     
  2.     pdf2word = PDF2Word() 
  3.     pdf2word.convertPDF('001.pdf','') 

注意:convertPDF函數(shù)有兩個(gè)參數(shù),第一個(gè)為需要轉(zhuǎn)換的PDF,第二個(gè)參數(shù)為轉(zhuǎn)換后的目錄。
run一下,一鍵入魂,".docx"文件已經(jīng)躺在了我的目錄中,舒服了~


本文標(biāo)題:用 Python 寫(xiě)了一個(gè)PDF轉(zhuǎn)換器,以后再也不用花錢轉(zhuǎn)了
網(wǎng)站鏈接:http://m.5511xx.com/article/dhhpjgh.html