inSmartBank

AI家計簿アプリ「ワンバンク」を開発・運営する株式会社スマートバンクの Tech Blog です。より幅広いテーマはnoteで発信中です https://note.com/smartbankinc

投資委員会ではAIツールの利用促進と検証をお金と制度でサポートします

https://cdn-ak.f.st-hatena.com/images/fotolife/s/smartbank/20251008/20251008164215.png

こんにちは!株式会社スマートバンクでサーバーサイドエンジニアをしているhiroteaです。

この4月から、社内AI推進を行う委員会「投資委員会」に所属し、社内のAIツール利用推進や補助、環境整備に取り組んでいます。

AI系開発ツール、毎週のように新しいものが出ていますよねぇ…

新しく出たものはひとまず触ってみることにしているのですが、大体は素敵なお値段がします。

今回のブログでは、「投資委員会」がそんなAI開発ツールをバンバン試せる環境を整えている話とちゃんと利用状況分析しているよ、という話をしようかと思います。

具体的に紹介すること

  • 月250ドルの個人補助で安心してAIツールの検証・利用ができるよ
  • エンジニアリング本部全体での潤沢な予算でAIエージェントの部全体での利用促進してるよ
  • Devin、Claude Codeの利用状況分析をしているよ

そもそも投資委員会とは?

投資委員会は、「AIなどの最新技術に積極的に触れ、効果検証や組織への浸透を図る」ことをミッションにおくサーバーサイド部の委員会組織です。

CEO堀井の「株式会社スマートバンクをAIファーストの会社にする」という号令に応えるための全社的なAI活用支援、そして我々エンジニア全員の開発体験(生産性・新技術の検証 ...)を向上させることを目的としています。

委員会については先日mitaniが投稿したブログをご覧ください。

blog.smartbank.co.jp

投資委員会の多くの取り組みのうち、特にエンジニアの開発体験と生産性を向上させるための制度設計・運用、そしてエンジニアの開発体験はどう変わったのか?についてご紹介してゆきます。

エンジニアが新しいツールを即試せる環境整備

始めにお金の話から行きます。現在エンジニアリング本部では「個人のツール検証と探索のための個人補助」「チーム単位での活用スケールのための本部予算」の両輪補助体制(+全社員が利用可能なAIツール補助」を整備しています。

月250ドルまで自由に使える個人補助

個人の素早いツール検証を後押しするため、以下の補助を用意しています。

補助対象 上限金額 対象
Claude Max $200 / 月 全エンジニア
任意のAIツール $50 / 月 全社員

「Claude以外に有用なツールがあればそちらを試しても良い」というルールになっており、個人の判断で最適なツールを選択できるのがポイントです。

経営陣としても「エンジニアによりよい良いツールを使って生産性をあげて欲しい」という思いがあり、当初の$100(しかもトライアル)から、短期間で予算増枠が承認されました。

筆者の場合はこんな構成で活用しています(これを書いている時にKiroのサブスクが出たので、ChatGPTの枠を差し替えるか少し迷っています)*1

利用ツール 費用
Claude Max $200
Cursor Pro $20
ChatGPT Plus $20
合計 $240

新しいツールを試す際に業務利用可否の判断・申請をするためのガイドラインも投資委員会では整備しています。ガイドラインについてはmitaniのブログをご参照ください。

blog.smartbank.co.jp

スケールする仕組みを部予算でカバー

さらにエンジニアリング組織全体で利用することによりスケールするツール・ナレッジ蓄積が求められているツールについてはエンジニアリング本部全体予算でカバーしています。

  • Devin: 月約50万円の予算
  • LLM API従量課金: Claude Code Actionなどで利用するAPI費用。GeminiやOpenAIなど、用途に応じたAPI利用が可能です。
  • その他バッファ: 新ツール検証用やDevinなどが頑張りすぎた時用

将来的な増加も見越した十分にゆとりのある予算編成ですが、利用状況をトラックしながら必要に応じて見直す予定です。

いずれの予算枠も「より良いツール・検証すべきツールが登場したら即乗り換える」前提で確保しており、常に最善の開発環境を追求できる体制を整えています。

毎月何か起きてた半年

現在の予算編成は、目まぐるしく変わるソフトウェアエンジニアを取り巻くAI開発環境の変化に高速で追従・検証し、仕組みの見直しを繰り返した結果です。

時期 できごと
2025年1月 24年から一部利用されていたCursorにAgentモードが搭載され、社内注目度が上がる & 利用者が増える
3月 Devinが試験導入開始。
4月 投資委員会が発足。
4月後半 任意のAI IDEが毎月補助対象になる制度
5月 一部チームでDevinをPJ機能開発への実戦投入を開始する
6月前半 Claude Codeが巷で話題になる。社内業務利用許可し、一部メンバーに抽選でClaude Max $100プランの経費補助開始
6月中盤 Claude Code Actionを主要repositoryに導入する。
6月後半 Devinが複数のPJで実戦投入され始める。社内勉強会を行い、エンジニア以外での利用も広がる
7月 ほぼ全エンジニアがClaude Max $100プラン経費補助対象となる
Claude Max $200ないとキツくない…?と社内で話題になり、乗り換える人が出てくる
7月後半 Claude Max $200プランが全エンジニア経費補助対象となる。MAX!!!!
8月 Devin含めたエンジニアリング本部全体予算が大幅に引き上げられる形で改訂される

個人利用IDEの補助から組織全体の開発フローに影響するツールの導入へとフォーカスが自然に移り、現在の個人と組織の二輪補助構造が出来上がっています。

各エンジニア個人の利用するツールのトレンドも目まぐるしく変わっています。

4月から開始した「任意のAI IDEが毎月補助対象になる制度」での、月毎の希望ツールを見てみると、5月はCursor/GitHub Copilotが半数でした。(記録がないのですが、確か4月はほぼ全員Cursorだったはずです)

しかし6月にClaude Codeが話題になり試験付与を開始して以降、あっという間に覇権ツールとなっています。

前述の通り、現在はエンジニア全員がClaude Max $200プラン+任意のAIツールを利用できるため、トラッキングは8月で最後です。

配って終わりにはしていません

もちろんただお金をばら撒いて終わりにしているわけではありません。

補助対象にしたツールがどのように活用されているか?を定量的・定性的にトラックし、得られた知見を積極的に社内展開しています。

「生産性」の計測はいたしません

「XXX(任意のAIツール)により生産性がN%上がった」のような数字は、現時点での計測は困難であり、仮に計測・算出できたとしても誤解を招く可能性があるためトラックしていません。

代わりに、ツール利用状況自体の統計的な分析・利用エンジニアの定性意見・活用ノウハウの共有に注力をしています。

Devin Monthlyレポートの紹介

3月の試験導入以降、毎月作成しているDevin利用レポートでは、SessionとACU、PRのマージ率について最近は分析して結果を共有しています。

(というかそれ以外に見れるメトリクスは実質的にありません)

ACU(Agent Compute Unit)

Devinが作業を実行する際に使用するコンピューティングリソースの測定単位。お給料。料金は$2.25/ACU。作業の複雑度・作業量に応じて消費量が異なる

Session

Devinがタスクを実行する際の作業単位。各Sessionは独立した仮想マシン環境で実行される

各Sessionでの作業でACUが発生する

https://docs.devin.ai/billing#what-is-an-acu

SessionごとのACUとPRのマージ率を分析することで

  • 「どのような使われ方をされているか」(タスクの粒度・複雑さ)
  • 「Devinの打率はどれくらいか?」(成功率・費用対効果)

これらを可視化することができます。

DevinのACUとタスクの粒度について

Devinは公式で「ジュニアエンジニア」と定義されています。

Evaluating Tasks for Devin When deciding if a task suits Devin, the first question to ask yourself is: Could a junior engineer figure this out given enough time and context?(Devinにとって適切なタスクかの判断基準は「このタスクはジュニアエンジニアが十分な時間をもらえれば解ける課題かどうか?」です)

docs.devin.ai

複雑すぎる課題だといくら時間をかけても解決できません。どんどん沼ってゆき、めちゃくちゃな実装と修正を繰り返しACUを浪費します。

つまりDevinにとって簡単な、適したタスクであれば少ないACUで完了しており、粒度が大きすぎ、複雑すぎるようであれば多くのACUを消費することになるのです。

DevinのSession InsightでもACU <5がHealthyなSessionであると定義されています。

Cognition公式Xでしか言及されていないSession Insights

DevinをうまくWorkさせ、費用対効果を最大化するには「どのようなタスクがDevin Friendlyか?」のナレッジ蓄積が鍵になります。そのためにSessionとACUの関係を継続的に分析し、共有しています。

実際のデータから見えてきたこと

まず全体の利用状況です。

消費ACU、セッション数(Devinにタスクをお願いすると作られるやり取りの単位)ともに増加が見られます

一方、平均ACUだけは右肩下がりです。平均ACUの減少は、Devinに渡されるタスクの粒度が小さくなってきていることを示しています。公式推奨の「タスクは小さく分割する」が実践されているといえそうですね。

エンジニアなら気になる PR merge率も見てみましょう。Sessionに紐づくPRがどれだけMergeされたか?を調査しました。

例えば、これは6月のSessionあたりのACU消費量とPR Merge率の関係を表したグラフです。

右に行くほどACU消費量の大きいタスクで、上に行くほどPR Merge率が高くなります

ACU2あたりにMerge率80%超えの山、ACU6~8に二つ目の山がある形をとっています。

続いて7月

山の傾向が変化し、ACU4以下に複数の高マージ率の山が集中、ACU6-8の山が消滅が消滅しています。

より明確に「ACUが多いほどMerge率が下がる」傾向が出ていそうですね。

PR率とACU消費量の関係を調べたら面白いのでは?というアイデアは同僚のosyoyuさんからいただきました。

ACUでかいとmerge率低いみたいなこと、ありました。

そのほかユーザーごと・チーム・職種単位での利用状況を詳細に確認し、Devin運用ナレッジが浸透しているか?をモニタリングし、社内での情報共有方針決定に活用しています(個人が特定できる形でのユーザー単位での利用状況はEMレイヤーにのみ共有)

定性意見

Claude Codeを使っているエンジニアに対して、サーベイアンケートを実施し、定性意見を集めています。(複数回答可)

ClaudeCode導入によって改善された点も多く挙げられた一方、課題も同じくらい上がっています。 特に「アテンションを取られてしまい集中力散漫になる」は、エディタ上で動作するエージェントであれば製品やモデルに依らず発生しそうな問題です。

開発体験はどう変わったか?

少なくともほとんどのエンジニアにとって、昨年末のような「DevinもClaude CodeもCursorもない開発環境」は想像すらできない状態になっています。AIエージェント利用を前提とした開発フローの転換も起き始めています。

実際の開発体験・デリバリー速度と品質への影響評価にはまだ時間がかかりますが、Devinのマージ率改善やツール利用の広がりを見ても、検証・ナレッジ共有・評価のサイクルは確実に回り始めています

これから続けていくこと

来週にはもしかしたらDevinは使われなくなっているかもしれません。

冒頭に書いた通り、どのツールも「いいものが出たら即乗り換える」前提で予算と仕組みを整備しています。

ツールが変わっても、「早く試して、早く学ぶ」という姿勢、そしてそれをスケーラブルな形で支える仕組みを維持することで、組織全体の機動力とナレッジの蓄積を行なっていくことは変わりません。

キャッチアップし、磨き続けていくのは大変ですがこれからもやっていきます。

*1:2025/09/12追記: Codexの性能が良いので$200の枠をChatGPT Proと差し替えようとしています

We create the new normal of easy budgeting, easy banking, and easy living.
In this tech blog, engineers and other members will share their insights.