カラクリ、国産CUAモデル「KARAKURI VL2」を開発
カラクリ株式会社は、経済産業省の生成AI開発支援プログラム「GENIAC」第3期の一環として、PC操作を自律的に実行する国産CUA向け視覚言語モデル「KARAKURI VL2」(8Bパラメータ)を開発しました。
特定業務でClaude Sonnet 4.6を上回る性能
カラクリが開発した日本語PC操作ベンチマーク「OSWorld-JP v0.2」(100タスク)で評価した結果、「KARAKURI VL2」は総合スコアでClaude Sonnet 4.6には及ばないものの、画像編集(GIMP)とメール操作(Thunderbird)の2カテゴリでClaude Sonnet 4.6を上回る性能を示しました。また、ベースモデルとの比較では、複数アプリケーションの横断操作(multi_apps)で約2.8倍のスコア向上を達成しています。
以下は、OSWorld-JP v0.2による評価結果の概要です。
| カテゴリ | タスク数 | KARAKURI VL2(8B) | Claude Sonnet 4.6 | Claude Sonnet 4.5 | GPT-4.1 |
|---|---|---|---|---|---|
| TOTAL | 100 | 0.331 | 0.593 | 0.416 | 0.050 |
| chrome | 13 | 0.385 | 0.641 | 0.539 | 0.000 |
| ★ gimp | 7 | 0.476 | 0.238 | 0.381 | 0.095 |
| libreoffice_calc | 12 | 0.167 | 0.806 | 0.306 | 0.000 |
| libreoffice_impress | 12 | 0.311 | 0.833 | 0.626 | 0.000 |
| libreoffice_writer | 6 | 0.611 | 0.889 | 0.778 | 0.000 |
| multi_apps(複数アプリ) | 27 | 0.136 | 0.333 | 0.189 | 0.025 |
| os(OS操作) | 7 | 0.714 | 0.857 | 0.714 | 0.429 |
| ★ thunderbird(メール) | 4 | 0.917 | 0.750 | 0.583 | 0.000 |
| vlc | 5 | 0.067 | 0.667 | 0.200 | 0.067 |
| vs_code | 7 | 0.381 | 0.429 | 0.381 | 0.048 |
★はKARAKURI VL2がClaude Sonnet 4.6を上回ったカテゴリです。
日本語PC操作ベンチマーク「OSWorld-JP」とモデルをOSSで公開
本プロジェクトでは、学習済みモデル「KARAKURI VL2」に加え、評価に使用したベンチマーク「OSWorld-JP」もオープンソースで公開されています。これは、第三者による結果の再現性と、国内におけるCUA研究の共通評価基盤の確立を目指す取り組みです。学習用コードについても近日中の公開が予定されています。
公開物の一覧は以下の通りです。
| 公開物 | 公開状況 | URL |
|---|---|---|
| 学習済みモデル(KARAKURI VL2) | 公開済み | https://huggingface.co/karakuri-ai/karakuri-vl-2-8b-thinking-2603 |
| ベンチマーク(OSWorld-JP v0.2) | 公開済み | https://github.com/karakuri-ai/OSWorld-JP |
| 学習用コード | 近日公開予定 | — |
KARAKURI VL2の技術的特長と開発背景
「KARAKURI VL2」は、8Bパラメータの軽量設計により、企業のオンプレミス環境での動作が可能です。これにより、機密性の高いデータを外部に送信することなく、セキュアな環境でPC操作の自動化を実現します。
また、ネット上に存在しない実業務の操作パターンを合成データとして生成し、学習に活用しています。この合成データによる業務特化学習により、コンタクトセンターで日常的に行われる画像編集やメール操作といった特定業務において、汎用モデルを上回る精度を実現しました。学習基盤にはAWS Trainiumが採用されています。Qwen3-VLアーキテクチャのTrainium上での大規模学習は、2026年3月時点の調査によると公開事例が確認されていない取り組みです。
CUAモデルの評価に使える日本語ベンチマークが国内では限られる中、カラクリは評価基盤そのものをオープンソースで提供することで、研究コミュニティ全体での知見の蓄積を促進することを目指しています。
カラクリ株式会社 CPO 中山 智文氏のコメント

カラクリ株式会社CPOの中山智文氏は、国産AIの方向性について、海外の汎用モデルと同じ土俵で戦うのではなく、日本の産業を支えてきた「現場の磨き上げ(現場力)」をAIの知性に変えることを目指していると述べています。今回の開発では、「業界特化」「独自データ」「自前運用」の3つの領域に特化し、特定のアプリケーション操作においては8Bの軽量モデルでも十分な精度が出せることを確認できたとしています。また、ベンチマーク「OSWorld-JP」をオープンソースで公開することで、国内CUA研究コミュニティ全体の前進に貢献したい意向を示しています。
今後の展望
カラクリは、「KARAKURI VL2」を基盤としたAIエージェントアプリケーションのサービス化を推進する計画です。カスタマーサポート領域を起点に、レガシーシステムを含む複数アプリケーション間の操作自動化へと対象を拡大し、自社製品群への統合を進める方針です。
ベンチマーク「OSWorld-JP」については、タスク数の拡充と評価カテゴリの追加を進め、国内CUA研究における標準的な評価基盤としての発展を目指します。また、学習データの拡充とファインチューニング手法の改善により、継続的な精度向上に取り組む予定です。
カラクリ株式会社の詳細については、以下のURLをご参照ください。
https://karakuri.ai/



コメント