430 likes | 641 Views
データ白書の見方・使い方(1). データ白書の見方・使い方. 『 ソフトウェア開発定量データ白書 』 について、以下の点を ご理解いただき、データ白書のご活用と定量データの 普及・展開を推進いただけるようお願いいたします。 白書利用の効果、目指す先を共有するため、 必要性と目的 を理解する。 白書を正しく利用するため、 収集方針を含むデータ概要 を理解する。 分析結果を正しく認識するため、 参照時の留意点 を理解する。 実践的に利用できるようになるため、 データの活用方法 を理解する。. 内容:データ白書の見方・使い方. 1章 背景と本書の目的
E N D
データ白書の見方・使い方 • 『ソフトウェア開発定量データ白書』について、以下の点をご理解いただき、データ白書のご活用と定量データの普及・展開を推進いただけるようお願いいたします。 • 白書利用の効果、目指す先を共有するため、必要性と目的を理解する。 • 白書を正しく利用するため、収集方針を含むデータ概要を理解する。 • 分析結果を正しく認識するため、参照時の留意点を理解する。 • 実践的に利用できるようになるため、データの活用方法を理解する。
内容:データ白書の見方・使い方 1章 背景と本書の目的 2章 収集データについて 3章 分析について 4章 収集データのプロファイル 5章 プロジェクトの主要要素の統計 (6章~10章)
1.1 IT産業を取り巻く環境(1) • 近年のIT産業を取り巻く環境について ネットワークの普及 期待・ニーズ システムへの 要求が増大 ・低コスト、短期開発 ・多機能、高性能 市場競争の激化 ビジネスモデルの転換 安全・安心の確保要請が増大 ・信頼のおけるマネジメント ・トラブル発生未然抑止 トラブルの多発 理 想 リスクの増大 不適切な見積、生産性の見誤り 現 実 人海戦術的な対処方法での対応 KKD(勘、経験、度胸)
1.1 IT産業を取り巻く環境(2) • 社会的な動向への対応 • 工事進行基準の適用: プロジェクトの進捗部分について「成果の確実性」が認められる 場合に適用される。 高い見積り精度と確実性、客観性が求められる。 • 「成果の確実性」とは、以下の3つの要素について、 信頼性をもって見積ることができること。 • 工事収益総額: • 工事契約の対価(受注額)。工事完成能力が必要。 • 工事原価総額: • 完成までの原価総額。実原価との比較と見直しが必要。 • 工事進捗度: • 決算日における開発の進捗率。客観的把握が必要。
1.1 IT産業を取り巻く環境(3) • ユーザ・ベンダ間の納得感の欠如 「やりたいこと」と「できること」の整合が必要だが… • 共有しやすい見積り手法がない • 初期の仕様は固めにくく、早期契約時の適切な見積りが困難 • 要件決定の遅れ、プロジェクト途中での仕様変更の発生 など ユーザ ベンダ 要件 【事業計画】 ・事業目的 ・事業領域/規模 ・投資/回収 ・事業スケジュール 【プロジェクト計画】 ・開発目的 ・スコープ/規模 ・予算 ・開発スケジュール 整合 実現性 定量データに裏付けられたマネジメントが必要
1.2 データ白書の目的(1) • 定量データの必要性 • 定量データが十分集まれば ・・・ こんな活用ができる ユーザ 経営層 ・IT投資、概略計画の妥当性、実現性の目安 業務・情報システム部門 組織長・スタッフ ・予算数値、根拠の制御 ・ベンダからの見積の比較と評価、強み/弱みの認識 プロジェクト管理者 ・計画策定、目標値の制定、QCDの妥当性評価 ・予実差異の分析、完了評価、開発能力の評価 ユーザ、ベンダ間の合意形成 ベンダ 経営層 ・自社の強み・弱み、生産性などの開発力の認識 PMO 品質保証部門 ・定量データベースの構築・自社プロジェクトのベンチマーキング、モニタリング プロジェクトマネージャ プロジェクトリーダ ・規模、工数、工期、品質の見積り、計画策定、制御 ・オフショア等、外部委託先評価
1.2 データ白書の目的(2) • SECの取組みとデータ白書の目的 • 定量的アプローチによる科学的マネジメントの普及拡大 メーカー系、ユーザ系、独立系の複数のベンダからデータを収集 • モノサシとしての精度を高めていく • 新たなモノサシや課題抽出の切り口を提案する 「ソフトウェア開発データ白書」として公開 (2010年度は23企業、2584プロジェクトのデータ) 2010- 2011 2005 2006 2007 2008 2009 2584 942 1418 1774 2056 2327 2010年11月 発行
1.3 データ白書利用の際の留意点 • データ白書の記載概要と利用の際の留意点 • ソフトウェアの定量的なモノサシとして基本的なものを収録しており、以下の要素間の関係などを図表で記載している。 • プロジェクトデータは様々な特性や環境により異なるため、必ずしもこのメトリクスをそのまま自プロジェクトに適用できない場合がある。それぞれのプロジェクトや現場で、何らかの判断や予測を行う場合の参考として、活用するとよい。 代表的な要素 規 模 工 数 工 期 生産性 信頼性 プロジェクトの 特性例 開発種別 アーキテクチャ 業 種 開発言語 開発ライフサイクルモデル プラットフォーム
1.4 データ白書で提供する基礎情報 • ソフトウェア開発データ白書の構成 (2010-2011版) データ収集方針分析の方針、データの基準 • 1章 背景と本書の目的 • 2章 収集データについて • 3章 分析について • 4章 収集データのプロファイル • 5章 プロジェクトの主要要素の統計 • 6章 工数、工期、規模の 関係の分析 • 7章 信頼性の分析 • 8章 工程別の分析 • 9章 生産性の分析 • 10章 予実分析等 • 付録A~G データ項目の定義や 収集データ年別プロファイル 等々 データ全体のプロファイル 方針に基づく分析結果 予実、生産性の差の特徴をミニテーマ分析
1.5 データ白書の対象読者 • データ白書の活用イメージを考慮した対象読者 • 教育部門の方々 • 企業内での定量データ活用の普及・展開を、社内教育などにより推進される際、活用いただきたい。 • 品質保証部門、プロジェクトマネジメントオフィスの方々 • 企業内での定量データベース構築や、プロジェクトのベンチマーキングを推進する際、現場の方々への説明やご指導など対応される際、活用いただきたい。 • 業務部門、情報システム部門の責任者の方々 • ソフトウェア開発現場で、データ収集・定量的管理・精度向上等の取り組みの啓発の際に、活用いただきたい。 • プロジェクトマネージャ、プロジェクトリーダの方々 • 定量データを用いた見積り、プロジェクト管理の推進(制御、予測等)を行う際、実践的な利用のためのノウハウとして、活用いただきたい。
内容:データ白書の見方・使い方 1章 背景と本書の目的 2章 収集データについて 3章 分析について 4章 収集データのプロファイル 5章 プロジェクトの主要要素の統計 (6章~10章)
2.収集データについて • データ収集方針と収集状況 • ソフトウェア開発データ白書で利用しているデータは、国内企業複数社から収集したプロジェクトデータである。 • データの項目は主に実績に関する項目 • 主な要素では計画データについても収集項目対象(規模、工期、工数など) • 対象プロジェクトはアプリケーションソフトウェアやシステムを開発するプロジェクトが中心 • 対象時期は直近3年を優先
2.1 データ収集のポイント • 重点収集したデータについて • 次に示す重点データ項目について、欠損が極力少ないプロジェクトを対象にデータ収集している。
2.2 データ提供状況 • プロジェクトデータの更新年・終了年別クロス集計 開始年ごとのデータ件数 終了年ごとのデータ件数 データ白書2010-2011 P17、図表2-2-4、5 【全体】 (2010-2011版での状況) ・開始年では2003年以降のデータが78%を占める ・終了年では2003年以降のデータが84%を占める (2009年度データ開始・終了プロジェクトは期中のためすべて収集されていない) 比較的直近年のデータが 多く集まっている
内容 1章 背景と本書の目的 2章 収集データについて 3章 分析について 4章 収集データのプロファイル 5章 プロジェクトの主要要素の統計 (6章~10章)
3.分析について • 分析の対応方針について • データ白書では、以下のように分析方針を定めて対応している。 • 年度毎に定点観測を行っているため、継続的な分析と新たに行う分析の対応方針を明確にしている。 • 分析の進め方 • 分析の目的、分析の観点、対象要素、分析する要素間の関係、 • 分析の手順 • 分析に関する事前の取り決め • データの選定基準などのデータ抽出に関する取り決め、 • データ項目の取り扱い • 分析結果の取り扱い • 分析結果の掲載基準や単位の表記、掲載・表現方式など。
3.1 分析の進め方(1) • 分析の観点及び方針 • 共通認識を形成するための代表的な要素に着目し、要素間の関係を明らかにするアプローチを取っている。 代表的な要素と、要素間の主な関係 主要要素として 分析の柱にしたもの データ白書2010-2011 P19、図表3-1-1
3.1 分析の進め方(2) • 分析の手順 • データ白書における分析の手順の概要を以下に示す。 • 不良データの除外 • データ提供側との確認、見直し (1)収集データの精査 • ばらつき、偏りをヒストグラムや 散布図より、自然な傾向を確認 (2)全データの分布分析 • 規模、工期、工数、生産性、信頼性の分布の明確化 (3)主要要素の データの分布分析 • 代表的な要素について、要素相互の関係を分析 (4)主要要素の関係分析 • データの干渉を廃し、極力独立性を出す、または特徴を出すために層別を設定し、細分化した分析を実施 (5)層別の設定と分析
3.2 分析に関する事前の取り決め(1) • データ抽出に関する取り決め • 分析対象データを抽出する際に、以下の取り決めを行っている。 • データ抽出対象の工程について • 規模データなどのデータ抽出、計測手法について • 複数選択がある収集データについての取り扱いについて • データ項目の取り扱いに関する取り決め • 以下のデータ項目ごとに必要な取り決めを行っている。 • 開発プロジェクトの種別 • FP規模、SLOC規模 • 工数、工期、月あたりの要員数 • 外れ値の取り扱い
3.2 分析に関する事前の取り決め(2) • 収集データの前提 (データ定義と留意点) • データ白書で扱う基本的な対象工程は、基本設計開始から総合テスト終了までの「開発5工程」としている。 • 工数は、「社内工数」及び「外部委託工数」の合計値を使用。 • 「社内工数」には、「開発」、「管理」、「その他」及び「作業配分不可」の全ての工数を含む。 • 「開発5工程」では、「該当する5工程」の工数と「工数配分不可」の工数の合計値を使用。
3.3 分析結果の取り扱い • 分析結果の取り扱いについて • データ白書では分析結果の取り扱いとして、掲載基準や評価の目安、基本的な見方などを取り決めている。以下について個別に示す。 • 3.3.1 共通事項 • 3.3.2 基本統計量 • 3.3.3 回帰分析 • 3.3.4 箱ひげ図
3.3.1 共通事項 • 分析結果の取り扱いにおける共通事項 • データ白書では分析結果の取り扱いにおける共通事項として以下について取り決めている。 • 分析結果の掲載基準 • 分析対象の標本数 • 偏りが起きないための前提条件(データ収集元の偏り、占有率など) • 基準を満たさない場合でも掲載する例外基準 • 単位の表記 • 分析結果の掲載方式 • 使用データの掲載方式 • 導出指標の例 • 分析結果の表現方式
3.3.2 基本統計量(1) • 基本統計量について • 散布図や箱ひげ図など視覚的に傾向を捉える図表と共に、基本統計量も認識することで、的確なデータ値を把握することができる。 • 基本統計量の表記 • 次に示すいずれかの形式で掲載している。 • 各項目は以下のように表記 「項目」:データ名称、 「N」:件数 「最小」:最小値、 「P25」:25 パーセンタイル 「中央」:中央値、 「P75」:75 パーセンタイル 「最大」:最大値、 「平均」:平均値、 「標準偏差」:標準偏差
3.3.2 基本統計量(2) • 基本統計量の評価の目安 • データ数nの量 • データ数は層別あたり、最低でもn≧10、望ましいのはn≧30。データ白書では標本数が10件以上であることが掲載基準。 • 統計量の代表値の採択 • 一般に|歪度|>2の場合、平均値より中央値を採択する。 (分布の非対象性が大きいと見られるため) 「平均値」と「中央値」について: • ソフトウェア開発プロジェクトのデータは正規分布をしていない場合が多い。(例えば規模や工数の分布など) • 中央値の方が平均値よりも全体のプロファイルを表す数値として適切であることが多い。 • 代表的な値や許容の幅、偏りやばらつきを評価し、より的確なデータ値を把握する。
3.3.2 基本統計量(3) • 基本統計量の見方と留意点 例) FP実績値の見方 ・FPによる規模では、500FPまでのプロジェクト が5割強を占める。 ・一方で、2000FP以上の プロジェクトも、一割強ある。 2000FP以上の大きな値に 引きづられ、平均値が大きく なっているが、非対象系の分布など 考慮すると、中央値の方が全体のプロファイルとして適切だと見て取れる。 FP実績値の基本統計量 データ白書2010-2011 P48、図表4-8-4、5 FP実績値の分布(ヒストグラム)
3.3.3 回帰分析(1) • 回帰分析の結果を散布図上で示す • データ白書ではプロジェクトの代表的な要素間の関係について、その多くは散布図により表わしている。 • 基本的には2つの要素間の関係を表わしている。 • 何らかの傾向があるか見ることができる。 • 2つの要素間に相関関係がないか見ることができる。 • 相関関係が見て取れる場合、2つの要素(2変量)の関係を回帰分析により、定式化する。(近似式として表わす。) • 定式化が可能な場合、信頼幅の線を表わす。
3.3.3 回帰分析(2) • 回帰分析結果の掲載基準 • 回帰分析結果について掲載するのは、下記図表に示す3項目の目安をすべて満たす場合としている。 • 回帰式は、相関係数が高くデータの件数も十分ある。 • 2つのデータ項目間に強い関係が見出せると判断される。 • 回帰直線又は曲線を示す条件も同様。 • 傾向を単に視覚的に示す場合や説明の必要性から係数を用いるなどのケースはこの限りではない。 • 回帰分析を使用した場合の評価の目安:
3.3.3 回帰分析(3):白書の表記と見方の留意点①3.3.3 回帰分析(3):白書の表記と見方の留意点① • 対数変換による分析 • ソフトウェア開発プロジェクトのデータは正規分布していないことが多い。(例えば規模の分布:規模の大きい方に裾野が長い分布) • 対数に変換するとほぼ正規分布と見なせることが多く、裾野を含めた全体の状況が見やすい。 • 「正規分布」であることを前提としている相関係数の有意性や回帰式の予測値の信頼区間推定を求めることができる。 裾野の分布が分かり易い 対数スケール化 正規分布 詳細は次の文献を参照のこと ※ 「プロジェクトデータ分析の指針と分析事例」:古山恒夫、SEC journal No3、 pp6~pp13、 2005
3.3.3 回帰分析(3):白書の表記と見方の留意点②3.3.3 回帰分析(3):白書の表記と見方の留意点② • もとのデータと対数変換後のデータの見方 • データを対数スケールに変換すると相関が明確になる場合がある。 • 散布図の表記において、必要に応じ対数スケール表示を取り入れている。 • 元のスケールに戻すと有効範囲(誤差)は右上方向に開く。 • もとのデータに戻し、50%の信頼幅を示すと・・・ 規模や工数が大きくなるに伴い信頼幅が広がるため、規模と工数の 関係など、妥当性の検証時はそれを考慮して判断する必要がある。 もとのスケールに戻す 50%信頼幅 対数表示
3.3.4 箱ひげ図(1) • データの分布を視覚的に捉えることができるグラフ * 極値 外境界点 • 箱の上端は、「上ヒンジ」と呼ばれ、上から 全体の25%に相当するデータの位置である。 • 箱の下端は、「下ヒンジ」と呼ばれ、下から 全体の25%に相当するデータの位置である。 • 上下50%の境目は「中央値」であり、 太線で表す。 • 箱の高さの3倍の位置を「外境界点」と呼び、 そこから外れた点を「極値」という。 • 箱の高さの1.5倍の位置を「内境界点」と呼び、 外境界点内で外れた点を「外れ値」という。 • 外れ値、極値の除いた点の最大値、最小値 までを「ひげ」として表現する。 箱の高さ×3.0 外れ値 内境界点 外れ値を除いた最大値 ひげ 箱の高さ×1.5 上ヒンジ 中央値 下ヒンジ 箱の高さ×1.5 外れ値を除いた最小値 内境界点 箱の高さ×3.0 外境界点
3.3.4 箱ひげ図(2) • 白書の表記と見方の留意点(箱ひげ図事例) 例) FP規模あたりの検出バグ数(新規開発、IFPUGグループ) • 幅は狭いほうが、ばらつきが小さい。 • 正規分布に近いデータの集団では、 上下のひげが同じ大きさで、 中央値が箱の真ん中にある。 データ白書2010-2011 P214、図表8-4-7
内容:データ白書の見方・使い方 1章 背景と本書の目的 2章 収集データについて 3章 分析について 4章 収集データのプロファイル 5章 プロジェクトの主要要素の統計 (6章~10章)
4.収集データのプロファイル(1) • 収集データのプロファイルについて • これまで収集したプロジェクトデータについて、どのような特徴があるか、プロファイルとして明示している。 • ある特徴について、ある種別で分類するとどのような分布になっているか • 全データ件数に対してどのような割合になるか • ある特徴の大小によって、件数がどのように分布しているか • 上記のような分析結果を、円グラフや棒グラフ、ヒストグラムなどの図表で表示している。 例) 開発プロジェクトの種別で見た際の特徴: • 種別を「新規開発」、「改修・保守」、「再開発」、「拡張」とする。 • この種別の割合をプロファイルとして見ることで、データの特徴を捉えることができる。(新規開発が約55%で、改良・保守開発が約29%など)
4.収集データのプロファイル(2) • データ白書掲載のプロファイル一覧
4.収集データのプロファイル(4) • 収集データのプロファイル例(1) 業種(大分類) アーキテクチャ データ白書2010-2011 P33、図表4-3-1 データ白書2010-2011 P36、図表4-4-5 (件数の多い順) ①金融・保険業 ②製造業 ③情報通信業 ①イントラネット/インターネット ②2階層クライアント/サーバ ③3階層クライアント/サーバ
4.収集データのプロファイル(5) • 収集データのプロファイル例(2) • 例えば図表から以下なども読み取ることができる。(図表は割愛) プラットフォーム 開発言語 ① Java② VB③ COBOL④ C ① Windows系 ② Unix系 主開発言語グループ となる主要4言語 開発ライフサイクルモデル 開発種別 • ウォーターフォール型が 9割強を占める • 新規開発が約6割を占める • 改良開発は4割弱を占める
内容:データ白書の見方・使い方 1章 背景と本書の目的 2章 収集データについて 3章 分析について 4章 収集データのプロファイル 5章 プロジェクトの主要要素の統計 (6章~10章)
5.プロジェクトの主要要素の統計(1) • プロジェクトの主要要素の統計について • 収集データのプロファイルはデータの特徴を様々な観点の分布状況から明らかにしたものである。 • さらに主要な要素について層別を行い、分布をまとめている • 要素間の関係を見るための対象プロジェクトデータと同じ切り口で層別 • 基本条件によるデータ抽出により明示 • 収集データの全体を俯瞰するため、規模、工期、工数、月あたりの要員数について、開発プロジェクト種別、業種、アーキテクチャ、業務別にその件数と分布をまとめている。 • 分析結果の確認や利用に際して、基となる基本的なデータ分布を認識することができる。
5.プロジェクトの主要要素の統計(2) • プロジェクトの主要要素の統計例