Hugging Face Blogが2026年5月18日(現地時間)付けで報じたところによると、PaddleOCR 3.5がリリースされ、Hugging Face Transformersを推論バックエンドとして利用可能になった。これにより、サポートされるPaddleOCRモデルは`engine="transformers"`を設定することでTransformersと連携して動作する。この変更は、OCRおよび文書解析タスクをHugging Faceエコシステムに統合する。

PaddleOCR 3.5は、より柔軟な推論エンジンインターフェースを導入した。開発者はengineパラメーターを通じてバックエンドを選択し、engine_configを通じてバックエンド固有のオプションを渡すことが可能となる。具体的には、dtype、デバイス配置、アテンション実装などの設定が行える。

PaddleOCRは引き続き、PP-OCRv5などのOCRモデルシリーズや、PaddleOCR-VL 1.5などの文書解析モデルシリーズを提供する。Transformersは、これらのモデルを実行するためのサポートされるバックエンドの一つとなる。

RAG (Retrieval Augmented Generation)やDocument AI、文書エージェントアプリケーションにおいて、PDFやスキャンされた文書、スクリーンショット、表、グラフ、数式、複雑なページレイアウトなどを信頼性の高い構造化データに変換する初期段階の課題解決に、PaddleOCRは寄与する。PaddleOCR 3.5により、これらの機能はTransformers中心のスタックとより容易に接続できる。

開発者にとっては、統合の摩擦が減少し、既存のPyTorch/Transformersインフラストラクチャをモデルのロード、実験、デプロイ、モデルアーティファクト管理に利用しているチームにとって、より使い慣れた開発体験が提供される。また、サポートされるPaddleOCRモデルのHub互換のモデル発見と配布、既存のPyTorch/Transformersサービスとの統合が容易になる。

OCRや文書解析のスループット最大化を優先する場合、PaddleOCRのデフォルトであるpaddle_staticバックエンドが通常推奨される。今回のリリースは、一つのバックエンドを別のものに置き換えるのではなく、開発者により多くの柔軟性を提供することを目的としている。


参考: Hugging Face Blog — 2026年5月19日 00:12 (JST)

原文ハイライト

"PaddleOCR 3.5 brings OCR and document parsing tasks closer to the Hugging Face ecosystem."

この記事をシェア
X はてブ LinkedIn