产品形态完整、识别能力强、隐私优先、社区驱动。一个工具覆盖绝大多数纯文字验证码场景。
所有推理在浏览器内完成。模型缓存到 IndexedDB,识别过程不发起任何外部网络请求,验证码图片与识别结果不会离开你的设备。
油猴脚本 / Chrome / Edge MV3 扩展 / Firefox MV2 扩展。共享一套核心 OCR 逻辑,但能适配每种宿主的最佳实践。
扫描 DOM 中的图片 / Canvas / SVG / CSS 背景,结合关键词 + 尺寸 + 上下文打分,自动找到验证码与对应输入框,无需手动写选择器。
兼容 React 内部 valueTracker、Vue v-model、AngularJS ng-model、Element / Ant Design / iView / Vant 等框架,避免「填了但表单读不到」。
字符验证码 / 数学公式(自动求值)/ Base64 / SVG / Canvas / CSS 背景图 / 噪点干扰图。也对滑块与点选有几何识别辅助。
类 AdGuard 订阅机制。社区可共享站点规则、关键词增量、协议选择器、黑名单。删除订阅自动回滚,干净不残留。
下方均为本页面实时生成的演示样本(不是图片素材)。
直接读取 Canvas 像素,对带干扰线和噪点的也能识别。
img 标签源、data: URL、blob: URL 都能处理。
序列化 SVG 为位图后送入 OCR 推理。
识别 3+5=?,自动算出 8 并回填。
通过 background-image 渲染的验证码也能命中。
滑块拼图位移检测、点选字符命中区域校验(位置识别),减少「点中了却失败」。
推荐 Chrome / Edge 用户使用扩展形态。油猴脚本更轻量,适合单站长期使用。
Manifest V3 架构,使用 Chrome Offscreen API 在隐藏文档里跑 ONNX 推理(service worker 不能直接跑 WASM)。功能最完整,包含弹窗、设置页、订阅、模型管理、统计。
git clone https://github.com/MakotoArai-CN/Mieru-OCR
cd Mieru-OCR
bun install && bun run build:extension
# Chrome 访问 chrome://extensions
# 开启「开发者模式」-> 加载已解压扩展 -> 选择 dist/extension首次启动从多个 GitHub 镜像下载 4MB ONNX 模型,缓存到 IndexedDB。后续访问秒级冷启动。
DOM 扫描结合关键词、元素尺寸、上下文打分;同时找到对应输入框(避开搜索 / 邮箱 / 手机号等误触)。
ONNX Runtime Web 把图片送入推理,得到字符序列后通过 React/Vue/Angular 兼容方式回填到输入框,触发框架感知。
# 1. 克隆仓库
git clone https://github.com/MakotoArai-CN/Mieru-OCR
cd Mieru-OCR
# 2. 安装依赖(推荐使用 bun)
bun install
# 3. 构建全部三种发行形态
bun run build:all
# 产物:
# dist/userscript/Mieru-OCR.user.js (油猴脚本)
# dist/extension/ + Mieru-OCR-v*.zip (Chrome / Edge)
# dist/firefox/ + Mieru-OCR-firefox-v*.zip (Firefox)涵盖产品定位、识别能力、功能边界与项目协作四类高频问题
chrome.storage.local
或 IndexedDB。我们不运营任何服务端、不打点、不上报、不做任何形式的行为追踪。
导出诊断报告时由你手动操作并自行检查再附加到 Issue。设置 → 模型
里切换以在体积 / 速度 / 精度间取舍。设置 → 模型
里通过自定义模型上传功能加载(v1.2.0+ 支持)。@require 加载,启动有冷启动开销;Chrome 系扩展通过 Offscreen Document 跑 WASM,存在 IPC 延迟。
高级
里开启四则运算自动求值。识别到形如
3+5=?
的内容后会算出 8 再回填,也可以选择回填原始表达式以便页面侧自己计算。src/core/ocr-engine.ts
替换推理实现。.onnx
模型文件及对应
charsets.json。
目前仅支持与 DDDDOCR 输入张量兼容的模型(动态宽度,64px 高,灰度)。CLAUDE.md
里有完整的项目架构说明。