与知识库对话

以下是关于 PDF 相关的一些信息： PDF 翻译的 AI 产品及方法： DeepL（网站）：点击页面「翻译文件」按钮，上传 PDF、Word 或 PowerPoint 文件即可。沉浸式翻译（浏览器插件）：安装插件后，点击插件底部「更多」按钮，选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML / TXT 文件」、「翻译本地字幕文件」。 Calibre（电子书管理应用）：下载并安装 calibre，并安装翻译插件「Ebook Translator」。谷歌翻译（网页）：使用工具把 PDF 转成 Word，再点击谷歌翻译「Document」按钮，上传 Word 文档。百度翻译（网页）：点击导航栏「文件翻译」，上传 PDF、Word、Excel、PPT、TXT 等格式的文件，支持选择领域和导出格式（不过进阶功能基本都需要付费了）。彩云小译（App）：下载后点击「文档翻译」，可以直接导入 PDF、PDF、Word、Excel、PPT、TXT、epub、srt 等格式的文档并开始翻译（不过有免费次数限制且进阶功能需要付费）。微信读书（App）：下载 App 后将 PDF 文档添加到书架，打开并点击页面上方「切换成电子书」，轻触屏幕唤出翻译按钮。浏览器自带的翻译功能：如果一些 PDF 太大，翻译工具不支持，除了将 PDF 压缩或者切分外，还可以转成 HTML 格式，然后使用浏览器自带的网页翻译功能。关于 PDF 结构识别：对于人类来说，浏览任何文档页面的认知过程都是相似的。当我们阅读一个页面时，我们的视网膜会捕捉到字符，接着在我们的大脑中，这些字符被组织成段落、表格和图表，然后被理解或记忆。但计算机是以二进制码感知信息，从计算机的角度看，文档可以分为两类：有标记文档（Tagged Documents）：例如 Microsoft Word 和 HTML 文档，它们包含像<p>和<table>这样的特殊标记，用来将文本组织成段落、单元格和表格。无标记文档（Untagged Documents）：例如 PDF 文档，它存储了每个文档页面上字符、线条和其他内容元素放置位置的指令。PDF 文档以人类可读的方式“绘制”这些基本内容元素，但它并没有存储文档的任何结构信息，如表格或段落。因此，无标记文档仅供人类阅读，但机器无法读取。当尝试将 PDF 表格复制到 Word 中时，这一点会很明显，因为在 Word 中原表格的结构通常会完全丢失。