服务案例 Python操作PDF的神器——PyMuPDF 来源: 发表时间: 2022-07-21 来源:火狐体育最新官网登录入口 作者:火狐体育app

  中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度。

  这个观察器很小,速度很快,但是很完整。它支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。

  命令行工具允许您注释、编辑文档,并将文档转换为其他格式,如HTML、SVG、PDF和CBZ。您还可以使用Java编写脚本来操作文档。

  解密文件 - 访问元信息、链接和书签 - 以栅格格式(PNG和其他格式)或矢量格式SVG呈现页面 - 搜索文本 - 提取文本和图像 - 转换为其他格式:PDF, (X)HTML, XML, JSON, text对于PDF文档,存在大量的附加功能:它们可以创建、合并或拆分。页面可以通过多种方式插入、删除、重新排列或修改(包括注释和表单字段)。- 可以提取或插入图像和字体 - 完全支持嵌入式文件 - pdf文件可以重新格式化,以支持双面打印,色调分离,应用标志或水印 - 完全支持密码保护:解密、加密、加密方法选择、权限级别和用户/所有者密码设置 - 支持图像、文本和绘图的 PDF 可选内容概念 - 可以访问和修改低级 PDF 结构

  加密/解密/优化- 创建子文档- 文档连接- 图像/字体提取- 完全支持嵌入式文件- 保存布局的文本提取(所有文档) **新:布局保存文本提取!** 脚本`fitzcliy .py`通过子命令`“gettext”`提供不同格式的文本提取。特别有趣的当然是布局保存,它生成的文本尽可能接近原始物理布局,周围有图像的区域,或者在表格和多列文本中复制文本。

  这个库的标准Python导入语句是import fitz。这是有历史原因的:MuPDF的原始渲染库被称为Libart。

  在Artifex软件获得MuPDF项目后,开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目,以取代老化的Ghost图形库,但却成为了MuPDF的渲染引擎(引用自维基百科)。

  这将创建Document对象doc。文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档,或创建新的空PDF。您还可以将文档用作上下文管理器。

  PyMuPDF完全支持标准元数据。Document.metadata是一个具有以下键的Python字典。它适用于所有文档类型,但并非所有条目都始终包含数据。元数据字段为字符串,如果未另行指示,则为无。还要注意的是,并非所有数据都始终包含有意义的数据——即使它们不是一个都没有。

  页面处理是MuPDF功能的核心。• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。

  使用某些查看器软件显示文档时,链接显示为==“热点区域”==。如果您在光标显示手形符号时单击,您通常会被带到该热点区域中编码的标记。以下是如何获取所有链接:

  如果处理PDF文档页面,还可能存在注释(Annot)或表单字段(Widget),每个字段都有自己的迭代器:

  方法Page.get_pixmap提供了许多用于控制图像的变体:分辨率、颜色空间(例如,生成灰度图像或具有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。

  Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度(每个像素)和跨距(一个水平图像行的字节数)。属性示例表示表示图像数据的矩形字节区域(Python字节对象)。

  text:(默认)带换行符的纯文本。无格式、无文字位置详细信息、无图像-blocks:生成文本块(段落)的列表-words:生成单词列表(不包含空格的字符串)-html:创建页面的完整视觉版本,包括任何图像。这可以通过internet浏览器显示-dict/json:与HTML相同的信息级别,但作为Python字典或resp.JSON字符串。-rawdict/rawjson:dict/json的超级集合。它还提供诸如XML之类的字符详细信息。-xhtml:文本信息级别与文本版本相同,但包含图像。-xml:不包含图像,但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释。

  这将提供一个矩形列表,每个矩形都包含一个字符串“mupdf”(不区分大小写)。您可以使用此信息来突出显示这些区域(仅限PDF)或创建文档的交叉引用。

  但是,您可以将任何文档(包括图像)转换为PDF,然后将所有PyMuPDF功能应用于转换结果,Document.convert_to_pdf。

  通常,您可以选择是保存到新文件,还是仅将修改附加到现有文件(“增量保存”),这通常要快得多。

  Document.select将PDF压缩到选定页面,参数是要保留的页码序列。这些整数都必须在0=ipage_ count范围内。执行时,此列表中缺少的所有页面都将被删除。剩余的页面将按顺序出现,次数相同(!)正如您所指定的那样。因此,您可以轻松地使用创建新的PDF:

  第一页或最后10页- 仅奇数页或偶数页(用于双面打印)- 包含或不包含给定文本的页- 颠倒页面顺序

  和Document.new_page插入新页面。此外,页面本身可以通过一系列方法进行修改(例如页面旋转、注释和链接维护、文本和图像插入)。

  您可以通过指定选项incremental=True将更改写回原始PDF。这个过程(通常)非常快,因为更改会附加到原始文件,而不会完全重写它。

  这可以通过Document.close方法实现。除了关闭基础文件外,还将释放与文档关联的缓冲区。

  入门:最全的零基础学Python的问题零基础学了8个月的Python实战项目学Python就是这条捷径

  干货:爬取豆瓣短评,电影《后来的我们》38年NBA最佳球员分析从万众期待到口碑扑街!唐探3令人失望笑看新倚天屠龙记 灯谜答题王 |用Python做个海量小姐姐素描图 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影

  小工具:Pdf转Word,轻松搞定表格和水印!一键把html网页保存为pdf!再见PDF提取收费!用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换制作一款钉钉低价机票提示器!|60行代码做了一个语音壁纸切换器天天看小姐姐!|

上一篇:遇到pdf文件损坏打不开要如何解决? 下一篇:那些突然被“锁”的文件 将 WPS 推向用户信任崩溃的边缘
关注我们
©2022 火狐体育最新登录网址_官网app入口 京公网安备110177777720125 火狐体育最新登录网址|火狐体育app