站点图标 Linux-技术共享

Gemma3-OCR,完全本地运行的计算机视觉应用

GmM90tIbgAA-bVs

Gemma3-OCR:完全本地运行的计算机视觉应用,特别适合需要离线文本识别能力的场景,或者对数据隐私有较高要求的用户

项目核心功能
· 图像文本识别:从上传的图片中识别并提取文本内容
· 本地运行:无需依赖云服务,全部在本地设备上处理
· 结构化输出:以结构化的 Markdown 格式展示识别结果

技术组件
· Gemma-3:Google 开发的视觉语言模型,通过 Ollama 在本地运行
· Streamlit:用于构建 Web 界面的 Python 框架
·
@ollama
:本地部署和运行大型语言模型的框架

退出移动版