Cloudflare Containers で Ruri v3 をサーバレス推論

Claude Code + Opus 4.6 パワーで書いた記事です。Cloudflare Containers は日本から使うとレイテンシがどうしても 400 ms くらいはあるので今後に期待という話。 Ruri v3 は名古屋大学の研究グループが開発した日本語特化の embedding モデルです。37M パラメータの最小モデル (ruri-v3-30m) でも JMTEB 平均 74.51 と、OpenAI text-embedding-3-large (73.97) を上回り、1B 超の PLaMo-Embedding-1B (76.10) に迫る性能を持っています。パラメータ効率がかなり高く、小さなモデルでも実用的な精度が出るので、リソースの限られたサーバレス環境と相性が良さそうだなと思い試してみました。 さらに、sirasagi62 氏が Ruri v3 の ONNX 版を公開してくれたことで、Python 以外のランタイム(ブラウザ、Node.js、Rust など)からも推論が可能になりました。今回のデモはこの ONNX 版 (sirasagi62/ruri-v3-30m-ONNX) を利用しています。 実行環境には、2025 年にオープンベータになった Cloudflare Containers を選びました。Workers の制約を超えてネイティブバイナリを動かせる新しいコンテナ実行環境で、まだ情報が少ないので記録を残しておきます。 推論が試せるデモはこちら: https://ruri-v3-cf-containers-demo.oshiteku.app/ruri-v3-cf-containers-demo.oshiteku.app/ 構成図 ...

March 28, 2026 · oshiteku