《PDF解析Markdown的应用场景》(2025.12.12)

先说一下PDF解析是啥,就是把PDF解析成文本,以Markdown语法+格式存储(也可以自行转化为其他常见格式,例如Word、HTML、LaTeX等).

1.大语言模型(LLM)精准交互

LLM(例如DeepSeek)是一个输入文字、输出文字的神经网络模型,并不具备读图、读PDF的功能.

当然,随着AI近几年的发展,有许多模型渐渐开始支持视觉+文字的多模态输入.

可是,图像对于大模型来说并不是它的“原生语言”,就像一个会些英语的中国人,大多时候总不如中文理解得更好.

此外,图像对于大模型来说所占用的Tokens要更多一些,能够支持的高质量上下文交互能力也就更弱.

并且,例如DeepSeek这种LLM来说,它本身并不具备读图的能力,而是先提取图片中的文字,再进行交互.

而它本身自带的解析能力并没有那么精确,这往往会导致一些非常影响输出质量的幻觉.

还有的时候,我们需要对一份PDF当中的某几段话进行单独的精确提问,这都可以用我们的PDF解析进行处理.

2.知识库、智能体搭建

设想一下,你是一个医生,每天要面对成百上千个患者的问诊,其中大部分都是一些微不足道的常见小病.

于是,你想搭建一个智能体,用于帮助患者快速确诊病情.

可是,传统的LLM数据来源渠道非常混乱,里面掺杂着各种良莠不齐的信息.

那么,你想要提高它的专业性,想要让它的判断有理有据,需要怎么做呢?

聪明的你很快就想到了,可以把一些文本做成向量塞进数据库.

当患者来看病的时候,向量检索模型将会给出最贴切其提问的信息.

LLM拿到这份信息之后,将会根据数据库中信息的辅佐来进行答复.

然而,电子书籍通常是以PDF的形式保存的,这并不太适合做成向量塞进数据库.

当当当当,我们的PDF解析功能就可以帮助你来完成这一步骤.

3.更精确的翻译

传统的PDF翻译,是基于文本提取+翻译替代来完成的.

好一些的,会采用纯视觉的OCR技术,精准提取文本,翻译,再贴回去.

然而,以上翻译模式都存在一些问题,其中最突出的问题为:

失去了上下文,翻译的一致性就会遭到破坏,非常影响阅读体验.

这就像你把一本书(100页)交给100位英语老师去翻译.

他们虽然本身都具有较强的翻译水平,但由于彼此不知道上下文关系,在一些术语上呈现混乱的特征.

而将PDF解析为文本后,LLM就可以一次性处理大量上下文,一致性得以保障.

4.二次编辑、做笔记

数学系的学生更有可能会遇到这种问题,有时候我们在撰写LaTeX笔记时,会想要把教材上的某些内容提取出来.

然后,把它们放在自己的笔记当中,作为引用,或者是课堂笔记.

即便对于一些LaTeX使用比较熟练的老手来说,撰写公式并不是多么困难的事情.

可是,手搓LaTeX真的很累,何不一次性解析出来需要看哪里就复制哪里呢?