【C哥日课】百度开源3B端到端OCR 五天github star破万，刷新长文档解析记录

【本期主题】

百度刚开源的3B小模型把OCR长文档识别的天花板打破了，40页PDF一次性读完不乱码，GitHub五天破万star霸榜四榜单

站点地址：github.com/baidu/Unlimited-OCR

【核心看点】

几十页PDF丢进OCR工具就乱码漏字，长文档识别为什么一直是死局？

GitHub五天破万star、四榜单第一，百度这个Unlimited-OCR到底是什么来头？

只有3B参数干活只用5亿，小模型凭什么比通义千问235B还准？

40页PDF从头读到尾一字不差，它到底用了什么黑科技？

传统OCR读长文档为什么会"失忆"？内存越撑越炸的真相是什么？

模仿人抄书的"短期记忆"机制，是怎么做到读100页和读10页一样快的？

不写一行代码怎么用上这个神器？HuggingFace网页版一键搞定？

让Claude Code、Trae、Cursor帮你自动部署，一句话就能跑起来？

MIT协议直接商用，企业那些堆积如山的PDF合同终于有救了？

所有大模型都在堆注意力机制，这条"怎么记"的新路线会不会是下一个拐点？

【主播】

软件和人工智能专家，程序员，已申请数十项技术专利。连续创业者，历任多家公司 CTO，AI 畅销书《DeepSeek 全场景指南》《学会提问，驾驭 AI：提示词从入门到精通》《玩转 Skill》作者，C 哥的 AI 成长圈主理人，帮众多企业和个人落地 AI。