Apple Machine Learning Researchは2026年5月(現地時間)、知覚品質と実行速度の双方を最適化する実用的な学習型画像コーデックに関する包括的な研究成果を発表した。この研究では、主要なモデリング選択肢を詳細に検討し、新たなコーデックを構築。従来のコーデックだけでなく、既存の学習型コーデックと比較しても、大幅な圧縮性能の向上と高速な処理能力を実現している。特に、iPhone 17 Pro Maxにおいては12メガピクセル画像のエンコードを230ミリ秒、デコードを150ミリ秒で完了できる性能を示しており、モバイルデバイスにおける高画質コンテンツの処理に新たな可能性を開くものと期待される。
学習型コーデックは、ハードコードされた従来のコーデックとは異なり、人間の視覚システムに合わせて直接最適化できるという明確な利点を持つ。しかし、これまで知覚的に優れていると評価されながらも、実際のデバイス上で高速かつ実用的に動作する画像コーデックの提案は限定的であった。今回のApple Machine Learning Researchによる研究は、この長年の技術的なギャップを埋めることを明確な目的としている。
本研究は、知覚品質と実行速度の両方を共同で最適化する、実用的な学習型画像コーデックを設計するための主要なモデリング選択肢について、極めて包括的な調査を実施した。具体的には、数百万にも及ぶバックボーン構成に対し、性能認識型ニューラルアーキテクチャ検索(Neural Architecture Search)という高度な手法を適用。これにより、知覚メトリクス(人間の視覚に基づいた評価指標)によって圧縮性能を最大化しつつ、目標とするオンデバイス実行速度を達成する最適なモデル構成を特定することに成功した。
これらの綿密な最適化と革新的なアプローチを組み合わせることで、速度と知覚品質という、これまでトレードオフの関係にあった要素を大幅に改善した新しいコーデックが構築された。その性能は、厳密な主観的ユーザー調査によって裏付けられている。具体的には、この新しいコーデックは、AV1、AV2、VVC、ECM、JPEG-AIといった主要な伝統的コーデックと比較して、2.3倍から3倍のビットレート削減を達成。さらに、既存の最高性能を誇る学習型コーデックと比較しても、20%から40%のビットレート削減を実現しており、既存技術に対する圧倒的な優位性を示している。
実行速度においても、この新しいコーデックは際立った性能を発揮する。iPhone 17 Pro Max上で12メガピクセル(12MP)の画像をわずか230ミリ秒でエンコードし、150ミリ秒でデコードできる能力を持つ。この処理速度は、V100 GPU(データセンターなどで広く利用される高性能なグラフィック処理装置)上で実行されるほとんどのトップMLベースコーデックよりも高速であるとされており、モバイルデバイスの限られたリソース内で高性能な画像処理を実現する画期的な進歩と言える。
このような知覚品質と実行速度の両立は、今後の高精細コンテンツの利用体験を大きく変革する可能性を秘めている。特に、スマートフォンやタブレットなどのモバイルデバイスにおいて、高画質な写真や動画のリアルタイム処理、あるいはストリーミング体験の向上に貢献することが期待される。本研究は、学習型画像圧縮技術が実用段階へと移行するための重要な一歩となるだろう。
参考: Apple ML Research (アーカイブ) — 2026年5月7日 09:00 (JST)
原文ハイライト"What Matters in Practical Learned Image Compression"