面对大量的扫描文件，你还在挨个手工处理吗？

今天来介绍一个关于python自动化处理图片并合并成pdf的实例。

背景说明

不知道现在新的扫描仪有没有这种高级功能：直接把多次扫描的内容批量一键合成pdf文档。永恒君接触过的大部分普通扫描仪貌似只能简单的把文件挨个扫描成pdf或者图片格式（jpg、png等）。

扫描完成的后续，诸如裁剪、合并、生成pdf等操作，还需要一个个手工完成，非常的费劲。

需求说明

因为的工作的原因，永恒君需要用扫描仪扫描几百页的纸张，然后分类别合并，生成pdf文档。为了好说明，简化如下：

扫描了10张图片（每张图片为A3大小），分两个文件夹分别进行如下操作：

1、每个文件夹的图片要剪裁成A4大小
2、将裁剪的图片合并成pdf。

也就是说，要把1、2两个文件夹里面的扫描件按A4纸张分别合并成2个pdf文档。

思路

都是程序化的操作，非常适合python来进行批量的解决这个问题。

1、关于图片处理，python中有专门的库 - PIL

基本代码如下：

from PIL import Image

img = Image.open(file)#打开图片
img1 = img.transpose(Image.ROTATE_270)#逆时针旋转
cropped = img1.crop((93, 0, 93+1655, 0+2330))  #图片剪裁位置的坐标，依次为左上角坐标和右下角坐标。
cropped.save("1.jpg")#图片保存

2、通过第三库 fitz来合并图片为pdf

import fitz

def pic2pdf(path):
    doc = fitz.open()
    for img in sorted(glob.glob(path+"*.jpg")):  # 读取图片，确保按文件名排序
        print(img)
        imgdoc = fitz.open(img)                 # 打开图片
        pdfbytes = imgdoc.convertToPDF()        # 使用图片创建单页的 PDF
        imgpdf = fitz.open("pdf", pdfbytes)
        doc.insertPDF(imgpdf)                   # 将当前页插入文档
    if os.path.exists("allimages.pdf"):
        os.remove("allimages.pdf")
    doc.save("allimages.pdf")                   # 保存pdf文件
    doc.close()

3、针对所有文件夹，循环进行上述操作即可。