《PDF解析Markdown的应用场景》(2025.12.12)

先说一下PDF解析是啥，就是把PDF解析成文本，以Markdown语法+格式存储（也可以自行转化为其他常见格式，例如Word、HTML、LaTeX等）.

1.大语言模型（LLM）精准交互

LLM（例如DeepSeek）是一个输入文字、输出文字的神经网络模型，并不具备读图、读PDF的功能.

当然，随着AI近几年的发展，有许多模型渐渐开始支持视觉+文字的多模态输入.

可是，图像对于大模型来说并不是它的“原生语言”，就像一个会些英语的中国人，大多时候总不如中文理解得更好.

此外，图像对于大模型来说所占用的Tokens要更多一些，能够支持的高质量上下文交互能力也就更弱.

并且，例如DeepSeek这种LLM来说，它本身并不具备读图的能力，而是先提取图片中的文字，再进行交互.

而它本身自带的解析能力并没有那么精确，这往往会导致一些非常影响输出质量的幻觉.

还有的时候，我们需要对一份PDF当中的某几段话进行单独的精确提问，这都可以用我们的PDF解析进行处理.

设想一下，你是一个医生，每天要面对成百上千个患者的问诊，其中大部分都是一些微不足道的常见小病.

于是，你想搭建一个智能体，用于帮助患者快速确诊病情.

可是，传统的LLM数据来源渠道非常混乱，里面掺杂着各种良莠不齐的信息.

那么，你想要提高它的专业性，想要让它的判断有理有据，需要怎么做呢？

聪明的你很快就想到了，可以把一些文本做成向量塞进数据库.

当患者来看病的时候，向量检索模型将会给出最贴切其提问的信息.

LLM拿到这份信息之后，将会根据数据库中信息的辅佐来进行答复.

然而，电子书籍通常是以PDF的形式保存的，这并不太适合做成向量塞进数据库.

当当当当，我们的PDF解析功能就可以帮助你来完成这一步骤.

传统的PDF翻译，是基于文本提取+翻译替代来完成的.

好一些的，会采用纯视觉的OCR技术，精准提取文本，翻译，再贴回去.

然而，以上翻译模式都存在一些问题，其中最突出的问题为：

失去了上下文，翻译的一致性就会遭到破坏，非常影响阅读体验.

这就像你把一本书（100页）交给100位英语老师去翻译.

他们虽然本身都具有较强的翻译水平，但由于彼此不知道上下文关系，在一些术语上呈现混乱的特征.

而将PDF解析为文本后，LLM就可以一次性处理大量上下文，一致性得以保障.

数学系的学生更有可能会遇到这种问题，有时候我们在撰写LaTeX笔记时，会想要把教材上的某些内容提取出来.

然后，把它们放在自己的笔记当中，作为引用，或者是课堂笔记.

即便对于一些LaTeX使用比较熟练的老手来说，撰写公式并不是多么困难的事情.

可是，手搓LaTeX真的很累，何不一次性解析出来需要看哪里就复制哪里呢？