POLARIS手法発表、小型モデルの長編創作文執筆能力が向上

arXiv (計算と言語学分野) は2026年6月2日(現地時間)、Rishanth Rajendhran氏らが、小型オープンウェイトモデルの長編創作文執筆能力を向上させる新手法「POLARIS」に関する論文を発表したと報じた。POLARISは、小型モデルが長編創作で要求された長さに満たない、あるいは長さの増加に伴い品質が低下するという課題を解決することを目指す。

小型オープンウェイトモデルは、長編の創作文において課題を抱えている。具体的には、生成される物語が要求された長さに大きく満たないか、長さが増すにつれて品質が著しく低下する傾向がある。これに対し、Rishanth Rajendhran氏らの研究チームはPOLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting)を提案した。

この手法は主に二つの要素から構成される。一つは、オンライン報酬として構造化されたストーリー品質評価基準を持つフロンティアLLMジャッジの活用。もう一つは、教師強制された人間が書いたストーリーを高報酬アンカーとして各GRPOグループ内に注入するヒューマンリファレンスインジェクション (HRI)である。

このトレーニング手法はQwen3.5-9Bモデルに適用された。約1.4Kのプロンプトとストーリーのペアからなるデータセットは、100の短編アンソロジーから派生しており、4台のA100 GPUを用いてトレーニングが実施された。このプロセスを経て、「POLARIS-9B」が構築された。

POLARIS-9Bは、in-distributionおよびout-of-distributionのプロンプトと評価基準にわたる5つのベンチマーク全体で評価された結果、より大規模なオープンウェイトモデルと同等の性能を示した。また、長さの指示にもより厳密に従うことが確認された。盲検化された人間評価では、POLARIS-9BがベースのQwen3.5-9Bよりも好まれ、Qwen3.5-27Bと同等レベルにあると評価された。

特筆すべきは、POLARIS-9Bが最大4kワードのストーリーでトレーニングされたにもかかわらず、トレーニング長の最大3倍の長さのストーリー要求に対しても品質を維持した点である。これは、ほとんどのオープンウェイトモデルが品質、長さの遵守、またはその両方で著しく劣化する領域である。今回の研究結果は、長さの一般化が創造的執筆モデルにとって意味のあるストレステストであり、類似モデルを区別する有用な指標となる可能性を示唆している。

参考: arXiv cs.CL — 2026年6月4日 13:00 (JST)