岚法律办公自动化程序「香港」

AI悦创原创2025/8/28大约 4 分钟...约 1208 字

Step 1：将扫描的 PDF 文件转换成图片

用 PyMuPDF（fitz）把 PDF 按页导出为图片：

每个 PDF 导出到同名文件夹下（自动去掉 .pdf 后缀）
图片以页码命名（1.png, 2.png, ... 从 1 开始）
支持批量处理目录、页码范围、输出格式（png/jpg）、清晰度（缩放倍数）

1. 安装依赖

pip install pymupdf

2. 代码实现

# -*- coding: utf-8 -*-
# @Time    : 2025/8/27 18:13
# @Author  : AI悦创
# @FileName: pdf_to_img.py
# @Software: PyCharm
# @Blog    ：https://bornforthis.cn/
# code is far away from bugs with the god animal protecting
#    I love animals. They taste delicious.
from pathlib import Path
from datetime import datetime
import traceback

# ====== 需要你根据实际情况修改的常量（路径直接写在代码中）======
INPUT_DIR = Path(r"./PDF-DATA")  # 放 PDF 的文件夹
OUTPUT_ROOT = Path(r"./RESULT")  # 总输出根目录：RESULT
RECURSIVE = False  # 是否递归遍历子目录
DPI = 600  # “最高清”建议600；可调 300/600/1200
SAVE_PNG = True  # 是否导出 PNG
SAVE_JPG = False  # 是否导出 JPG
JPG_QUALITY = 95  # JPG 质量(1-100)，95 接近无损但体积可控
LOG_FILE = OUTPUT_ROOT / "log.txt"  # 失败日志
# =====================================================

# 依赖 PyMuPDF
try:
    import fitz  # PyMuPDF
except ImportError as e:
    raise SystemExit("未安装 PyMuPDF，请先运行：pip install pymupdf") from e


def strip_pdf_suffixes(name):
    """多次去掉结尾的 .pdf（应对 xxx.pdf.pdf 这种情况）"""
    base = name
    while base.lower().endswith(".pdf"):
        base = base[:-4]
    return base or "untitled"


def log_error(msg):
    LOG_FILE.parent.mkdir(parents=True, exist_ok=True)
    ts = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    with open(LOG_FILE, "a", encoding="utf-8") as f:
        f.write(f"[{ts}] {msg}\n")


def convert_pdf_to_images(pdf_path: Path):
    """
    将单个PDF按页导出为 PNG+JPG。
    出错会写日志并继续其它页 / 文件。
    """
    try:
        doc = fitz.open(pdf_path)
    except Exception as e:
        log_error(f"打开失败: {pdf_path} | {e}")
        return

    try:
        base_name = strip_pdf_suffixes(pdf_path.name)
        out_dir = OUTPUT_ROOT / base_name
        out_dir.mkdir(parents=True, exist_ok=True)

        zoom = DPI / 72.0
        mat = fitz.Matrix(zoom, zoom)

        total = len(doc)
        for i in range(total):
            page_no = i + 1  # 1-based
            try:
                page = doc.load_page(i)
                pix = page.get_pixmap(matrix=mat, alpha=False)  # alpha=False 更通用

                if SAVE_PNG:
                    (out_dir / f"{page_no}.png").write_bytes(pix.tobytes("png"))

                if SAVE_JPG:
                    # PyMuPDF 支持 jpg_quality 参数
                    pix.save(str(out_dir / f"{page_no}.jpg"), jpg_quality=JPG_QUALITY)

            except Exception as e_page:
                # 单页失败，记录后继续下一页
                log_error(f"页面失败: {pdf_path} | 页 {page_no}/{total} | {e_page}\n{traceback.format_exc()}")
                continue

    finally:
        try:
            doc.close()
        except Exception:
            pass


def find_all_pdfs(root, recursive=False):
    if root.is_file() and root.suffix.lower() == ".pdf":
        return [root]
    if root.is_dir():
        return sorted(root.rglob("*.pdf") if recursive else root.glob("*.pdf"))
    return []


def main():
    if not INPUT_DIR.exists():
        raise SystemExit(f"输入目录不存在：{INPUT_DIR}")
    OUTPUT_ROOT.mkdir(parents=True, exist_ok=True)
    # 本次运行写一个分隔头
    log_error("=== 本次转换开始 ===")

    pdfs = find_all_pdfs(INPUT_DIR, recursive=RECURSIVE)
    if not pdfs:
        log_error(f"未找到PDF：{INPUT_DIR}（递归={RECURSIVE}）")
        print("未找到任何PDF。")
        return

    print(f"共找到 {len(pdfs)} 个PDF，开始转换（DPI={DPI}，PNG={SAVE_PNG}，JPG={SAVE_JPG}, Q={JPG_QUALITY})...")
    for idx, pdf in enumerate(pdfs, 1):
        print(f"[{idx}/{len(pdfs)}] {pdf}")
        try:
            convert_pdf_to_images(pdf)
        except Exception as e_file:
            # 理论上 convert 已经自带容错，这里兜底
            log_error(f"文件失败: {pdf} | {e_file}\n{traceback.format_exc()}")
            continue
    log_error("=== 本次转换结束 ===")
    print("全部完成。失败详情见：", LOG_FILE)


if __name__ == '__main__':
    main()

AI悦创·推出辅导班啦，包括「Python 语言辅导班、C++ 辅导班、java 辅导班、算法/数据结构辅导班、少儿编程、pygame 游戏开发、Web、Linux」，招收学员面向国内外，国外占 80%。全部都是一对一教学：一对一辅导 + 一对一答疑 + 布置作业 + 项目实践等。当然，还有线下线上摄影课程、Photoshop、Premiere 一对一教学、QQ、微信在线，随时响应！微信：Jiabcdefh

C++ 信息奥赛题解，长期更新！长期招收一对一中小学信息奥赛集训，莆田、厦门地区有机会线下上门，其他地区线上。微信：Jiabcdefh

方法一：QQ

方法二：微信：Jiabcdefh

更新日志

2025/9/3 07:06

查看所有更新日志

4a001-docs(博客): 添加图像处理示例代码到8月项目文档于 2025/9/3
06f1e-docs(blog): 更新8月份博客文档内容于 2025/8/31
44fef-docs(Python-Programming-Course): 更新字符串文档并添加PDF转图片脚本于 2025/8/30
d755c-docs: 添加岚项目博客文档于 2025/8/27
79091-docs: 添加Python编程课程FAQ06文档于 2025/8/12
75481-Add FAQ articles for programming course: addressing students with prior experience and learning plans by age group于 2025/6/1
87164-修改文件名称Python-Programming-Course于 2025/6/1
b2b61-更新FAQ04.md，新增0～3岁和3～6岁的学习计划阶段于 2025/5/12
24617-新增FAQ04.md文档，提供每个年龄段的学习计划及辅导班信息于 2025/5/12
70353-更新文件夹名称于 2025/5/11
ae8a4-更新食谱文档，优化标签和步骤格式于 2025/5/10
9bfdc-新增 Vuepress 侧边栏自定义文档，包含自动生成侧边栏的说明及相关信息于 2025/4/29
4d098-Add articles on programming and cooking: "Can computer programs really kill people?" and "清蒸鲈鱼"于 2025/4/22
1c35a-去掉head于 2025/4/11
cbb3a-update于 2023/1/30
76989-update于 2022/12/10
86c50-update于 2022/12/9
027da-first commit于 2022/11/28

贡献者

AndersonHJBAI悦创

岚法律办公自动化程序「香港」

Step 1：将扫描的 PDF 文件转换成图片

Step 2：把图片转换成文本进行存储起来

更新日志

贡献者