实测PDF合并：保序与去重一步到位

上周要整合三百份会议记录PDF，文件名全是“2024-03-xx会议摘要_v3”之类的混乱编号，直接合并后顺序完全错乱。我手工拖拽排序花了半小时，还发现有几页重复内容。实测了几种工具后，我总结出一套既能保证顺序又能自动去重的流程。

第一步：用数字前缀统一命名
在Windows资源管理器里全选文件，按Ctrl+A后右键重命名，输入“001_”“002_”等前缀。如果文件超过100个，就用三位数前缀，比如“010_”。这样系统默认按文件名排序，合并时就按这个顺序。实测批量重命名工具比如“Advanced Renamer”能更快完成，我直接用了PowerShell脚本：get-childitem *.pdf | foreach { rename-item $_ -newname (‘{0:D3}_{1}’ -f $_.BaseName.Substring(0,2), $_.Name) }，但注意要备份原始文件名。

第二步：用PDFsam合并并按文件名排序
我用的免费开源工具PDFsam Basic，点击“合并”模块，把重命名后的PDF全拖进去，它默认按文件名顺序排列。这里有个坑：如果文件名里有中文，排序可能乱，所以建议前缀只用数字和英文下划线。实测合并300个文件用时约40秒，顺序完全正确。如果遇到不同页面尺寸（比如A4和A3混搭），可以在PDFsam里勾选“调整页面大小”强制统一为A4，但会拉伸，我更推荐用Adobe Acrobat Pro的“优化扫描”功能自适应。

第三步：用专业工具检测重复页面
合并后我用“PDF Squeezer”（Mac版）检查重复，它能逐页对比内容。实测发现有三页完全重复（因为同一份文件被重复拖入）。手动删除后体积从120MB降到110MB。如果不想花时间对比，可以用“Duplicate Page Finder”脚本（Python+PyMuPDF），能自动标记并删除完全相同的页面。我写了个简单脚本：遍历每页的文本哈希值，碰到重复就记录页码，然后用PyMuPDF删除。测试一次成功。

问：合并后文件体积太大怎么办？

答：合并后体积膨胀主要是因为原始PDF内含高分辨率图片。用Adobe Acrobat的“另存为缩减大小PDF”或在线工具“iLovePDF”压缩，我实测300页文档从120MB压到30MB，清晰度基本可接受。如果不想在线传文件，用开源工具GhostScript命令：gswin64c -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf，记得备份原文件。

问：如何快速批量重命名成数字前缀？

答：除了上面说的PowerShell脚本，推荐“Everything”工具（免费）搜索所有PDF，全选后右键“重命名”，输入“001-”并勾选“添加序号”。实测一秒生成100个文件的新名。注意如果已有文件名含重要日期信息，建议同时保留原后缀，比如“001_20240301会议.pdf”。

问：合并时遇到不同页面尺寸怎么办？

答：最稳妥是用Adobe Acrobat Pro的“合并文件”功能，在选项里选择“缩小过大的页面”或“扩大过小的页面”，实测能自动缩放为A4，但边距可能变。如果要求严格，用“PDF Page Size Adjuster”收费工具，可按指定尺寸裁剪。我常用免费方法：先统一所有PDF的页面尺寸（用GhostScript设置固定媒体框），再合并。

实测PDF合并：保序与去重一步到位

好文章推荐

发表评论