380 likes | 448 Views
データ解析コンペティション. ぱっしょん 小林 高野 御堂丸 根岸 山下 市村 土屋 太田 川上. H.20.03.01. 1 . 研究目的. オークションに関わる企業に対して有益な情報戦略の提案を行う. 2 . データ概要. データ期間: 2005/06/22 ~ 2007/06/28 車両台数: 125,880 台 無札台数: 1194 台 (0.95%) 平均落札金額: 31 万円 出品者: 105 社 落札者: 619 社. 3 . 価格決定要因の抽出. 仮説:有意な変数がわかれば、予測式によって事前に落札価格がわかるのではないか。
E N D
データ解析コンペティション ぱっしょん 小林 高野 御堂丸 根岸 山下 市村 土屋 太田 川上 H.20.03.01
1.研究目的 • オークションに関わる企業に対して有益な情報戦略の提案を行う
2.データ概要 • データ期間:2005/06/22~2007/06/28 • 車両台数:125,880台 • 無札台数:1194台(0.95%) • 平均落札金額:31万円 • 出品者:105社 • 落札者:619社
3.価格決定要因の抽出 • 仮説:有意な変数がわかれば、予測式によって事前に落札価格がわかるのではないか。 • 落札価格に影響の大きい変数を調べるために前半1年のデータを使って車種ごとの回帰分析を行う。予測式による割合変数※の予測値と後期データにある実測値との残差、予測式の説明率について調べた。 ※新たに定義した変数 次ページにて説明
3.価格決定要因の抽出(1) • 新たに定義した変数 • 割合・・・新車価格に対する落札価格の割合(落札価格/新車価格) • 車検残月数・・・オークション開催日の時点で残っている車検の月数 • 経過年数・・・初年度登録からオークション開催日までに経過した年数 ※有益な分析を行うために、新車価格に0又は欠損値の含まれるもの、落札台数が99台以下の車種は省いた 分析に使用したのは74232台の車両データとなる 新車価格が0のデータ:118台 新車価格が欠損しているデータ:43202台 落札台数合計が99台以下の車種:8328台
3.価格決定要因の抽出(2).予測式 • Y = b1X1 + b2X2 + b3X3 + c 予測値 前期有力変数 後期有力変数 Y切片 車種によっては回帰で見つからなかった要因が存在する可能性 説明率と残差を交差させ、車種ごとの最適な分析手法を再考
3.価格決定要因の抽出(4) • 説明率が高いものは、回帰分析で有意変数を抽出できていると判断 • 残差の大きいものは、前期・後期の間にモデルチェンジ等、なんらかの変化があった可能性 第1象限・・・前後期別に標準化偏回帰係数を求める 第2象限・・・全データの標準化偏回帰係数を求める 第3象限・・・全データを使用し、決定木分析を行う 第4象限・・・前後期別に決定木分析を行う
3.価格決定要因の抽出(5).第1・4象限 • 第1・第4象限は、比較的残差の大きい象限だったことから、前後期にわけて分析を行った。 • 対象の車種のほとんどにおいて有意な変数の入れ替わりが発生した。原因の特定までには至っていないが、ライトエースバンのように経過年数と初年度登録という、非常に似た変数同士の入れ替わりが発生していることもあった
経過年数は7年を超えるかどうかで落札価格に差がでている経過年数は7年を超えるかどうかで落札価格に差がでている 価格決定要因の抽出(6).第3象限 シビックは2005年にモデルチェンジが行われ、4ドアの小型乗用車から5ドアのセダンタイプになった
価格決定要因の抽出(7).無札 仮説 入札されている車種とされていない車種(無札)の違いはどこにあるのかを分析 その際、車種の形状タイプにより要因が異なるのではないかという仮説を立てた 決定木分析により、要因となりうる変数を抽出
価格決定要因の抽出(7-1) • 新たに定義した変数 • 損傷ポイント・・・提供データを元に損傷記号を数値化したものをフロント・サイド・リア・ルーフ・タイヤの部分別に分けたものとその合計 • 車種タイプ・・・車種名、形状記号を分析用に変換したもの • 決定木とは • 意思決定の決定や物事の分類などの分岐を樹形図で表現したもの
価格決定要因の抽出(7-2) • セダンタイプ • 1999年以前の車種で新車価格が約170万以下のもの、そして距離が87000km以上と、この条件を満たせば満たすほど無札になる可能性が上がる。 軽自動車タイプも全く同じ条件となった。新車価格は80万以下、走行距離は約5万8000kmが基準となっている。
価格決定要因の抽出(7-3) • ワゴンタイプ • このタイプは、 • 他のタイプに比べ • 損傷の影響を大きく受けている
価格決定要因の抽出(7-4) • バンタイプ • バンタイプを買う人は、車の本体価格以外の部分での支出を特に抑えたいという人が多いようだ。
価格決定要因の抽出(8).まとめ • 車種をいくつかのパターンに分けて分析することによって、価格決定につながる変数やその度合いを発見することができた。 • しかしその一方で、前期・後期にわけて分析した際に異なる有意変数が抽出された車種については、その原因をもっと掘り下げて探っていく必要がある。 • 無札の自動車に関しては、タイプごとにしっかりとした条件が浮かび上がっている。出品者側からすると、これらの車種を出品することは無意味ということになるが、主催者側からするとこの情報を公開するメリットはあまりないかもしれない。
これを前後期別に行う 4.デシル分析①各バイヤーを落札金額の多い順に並べ替える 優良顧客 DECIL1 DECIL2 非優良顧客 DECIL3 ②10個のデシルに落札金額の多いバイヤーから順に均等に振り分けていく
デシル分析(1) • 仮説 優良顧客と非優良顧客をわけることによって、バイヤーの特徴に違いが見られるのではないか。 非優良顧客を優良顧客にするために何かできることはないだろうか。 バイヤーの細分化によって広告の効率化を狙う
デシル分析(2) どちらもdecil1に属するバイヤーが全落札金額のおよそ6割を占める
デシル分析(3) • 各decilに属しているバイヤー数の前期から後期にかけての動き 前後期共にdecil1に属しているバイヤは38社 decil2からdecil3へ下降したバイヤは8社
各数値の変動が激しい ↓ 何らかのアプローチをとる価値はある デシル分析(4)
デシル分析(5).考察 • decil7までに属しているバイヤには、広告の効率化によってdecilの上昇が期待できるのではないか。 • decil8以下に属するバイヤに対してアクションをとるよりも、新規顧客の獲得に注力したほうがよいのではないか。
デシル分析(6) [デシルを上昇させているバイヤが多く購入した車種] いずれも商用車と考えられる いずれも商用車と考えられる いずれも商用車と考えられる いずれも商用車と考えられる
デシル分析(7) [デシルを下降させているバイヤが多く購入した車種] 飛びぬけてupとの違いが大きい車種はない
デシル分析(8).まとめ • 商用車を中心に買い進めているバイヤは優良バイヤになりやすい傾向がある。ただし、今回はデシルに振り分ける際に落札金額でソートしているため、商用車1台を買ったバイヤが軽自動車を3台買ったバイヤよりも高いdecilに属しているということも考えられ、単純に優良・非優良バイヤとは分けられない。 • 次に行うクラスター分析とあわせて考える必要がある。
5.クラスター分析 • 仮説 • デシル分析とは異なる視点から各バイヤーの特徴を捉え、バイヤーを分類することによってとるべきアクションを考えられないか。 • デシルとクラスターのクロス集計によりバイヤーを細分化することから何か新しい発見を見つけることはできないか。 ※クラスター分析をおこなうにあたっては、SOM(自己組織化マップ)を使用
クラスター分析(1).SOM • SOM(自己組織化マップ、Self-Organizing Map)とは、ニューラルネットワークの出力にあたるものをn行m列の表にし、入力データごとの各変数の値とその表の各セルを結びつける関数を設定して、どのように表に振り分けたら一番安定するかを求めることによって、データをn×m個に分類する方法のこと。 クラスター1 クラスター2 クラスター3 クラスター4
クラスター分析(2) • バイヤーごとに集計した以下の落札パターンに関するデータについて、3×3(=9)個のクラスターに分けるように設定してSOMによる分析を実施。 • 車種別落札台数率(134車種)☆ • 平均走行距離 • 抹消区分 • 保証書 • 整備手帳 • 記録 • 修復歴 • ヤブレ • 穴 • 亀裂 • 距離区分(4区分)☆ • レンタカー歴(6区分)☆ • 看板面数 • 落札合計台数◎ • 平均経過年数◎ • 平均価格率◎ • 会場別台数率(17会場)◎☆ • 月別落札台数率(12ヶ月×2年分)◎☆ ◎印は今回の分析のために独自に設定した項目。それ以外は元のデータにある項目 ☆印は区分別に項目を分け、それぞれの区分での台数を比率に変えてデータ化した項目。それ以外は数値の平均をバイヤー別に求めてデータ化した項目。
クラスター分析(3) • データを9つのクラスターに分けた結果、以下のような特徴が見られた クラスター1(バイヤー数:11 落札台数:16.45) クラスター6(バイヤー数:94 落札台数:84.70) ボロ車買いバイヤー(但し看板面数非常に多め)。かなり低めの値段で落札。少数落札者 年数普通だが状態が新品同様のものを狙うバイヤー。高めの値段で落札。若干少なめに落札。看板面数多め クラスター2(バイヤー数:47 落札台数:50.7) クラスター7(バイヤー数:56 落札台数:126.23) ボロ車買いバイヤー(但し看板面数平均的)。低めの値段で落札。少数落札者 (年数・状態・走行距離が)普通の車メインのバイヤー。落札台数平均的 クラスター8(バイヤー数:87 落札台数:72.85) クラスター3(バイヤー数:53 落札台数:182.36) 年数や状態は普通だがあまり走行していない車を狙うバイヤー。若干少なめに落札。看板面数多め 年数や状態は普通だが走行距離が若干短いものを狙うバイヤー。若干多めに落札、看板面数少なめ クラスター9(バイヤー数:60 落札台数:68.07) クラスター4(バイヤー数:81 落札台数:149.63) 新品同様志向バイヤー。若干少なめに落札。 ボロ車に近い中古車のバイヤー。低めの値段で落札。若干多めに落札。看板面数少なめ クラスター5(バイヤー数:95 落札台数:257.16) 年数や状態は普通だが距離が若干長めの車を狙うバイヤー。大量落札者 有益なビジネス戦略を練る実施例を付録として掲載
6.デシル*クラスター ピンク色の部分は、デシル分析の結果により広告の効果が大きいと考えられる範囲。赤色の部分からは、クラスター5が他のクラスターに対してdecil1に属している比率が断トツで高いことがわかる
7.まとめ • バイヤーを細分化することによって、バイヤーには特性が見られ、それぞれに有効なサービスを提供していくことができるという結論に至った。(例:付録4) • これによってオークションの参加率上昇につながる広告の効率化を図っていけるのではないか。 • 価格決定につながる有意変数の数値を求めたが、各々の車種に特徴がみられる。それを利用することによって出品前にある程度の落札価格を予測し、オークションに対して不安を感じている人への参加を促したい。
終わり ご清聴ありがとうございました
付録(1).クラスター分析:資料 <主に利用するオークション会場> クラスター1 クラスター6 会場4、会場8、会場5、会場3、会場13、会場9、会場16 会場4、会場8、会場5、会場3、会場6、会場12 クラスター7 クラスター2 会場5、会場3、会場8、会場6、会場12、会場4 会場3、会場4、会場10 クラスター8 クラスター3 会場4、会場3、会場5、会場6、会場10 会場4、会場3、会場5、会場12 クラスター9 クラスター4 会場6、会場5、会場14、会場12 会場4、会場3、会場5、会場8、会場10、会場12 ※太字の会場は特に多く利用している会場を示す クラスター5 会場4、会場10、会場8、会場5、会場3、会場6
付録(2).クラスター分析:資料 <落札した車の主な形式> クラスター1 クラスター6 商用軽乗用車、一般軽乗用車、商用ステーションワゴン 商用ステーションワゴン、トラック、商用バン クラスター2 クラスター7 商用ステーションワゴン、トラック、一般軽乗用車、一般セダン 商用軽乗用車、商用ステーションワゴン、一般軽乗用車、一般セダン クラスター3 クラスター8 商用軽乗用車、一般セダン、一般軽乗用車、商用ステーションワゴン 商用軽乗用車、一般軽乗用車、商用ステーションワゴン クラスター4 クラスター9 商用ステーションワゴン、一般セダン 一般軽乗用車、商用軽乗用車 クラスター5 商用ステーションワゴン、一般セダン
付録(3).クラスター分析:資料 <落札した車の主な車種> クラスター1 クラスター6 エルフ、パートナーバン、ADバン、カルディナバン、ボンゴバン、キャロル、カローラバン、エルフワイド、タイタン、キャンターガッツ エブリイバン、ミラ、カローラバン、ミラバン、ADバン、ハイエースワゴン クラスター7 クラスター2 ADバン、カローラ、アクティバン ADバン、キャロル、カローラバン、パートナーバン、エルフ、タウンエースノア クラスター8 ミラ、ミラバン、キャロル、ミニキャブバン、カローラバン、ADバン、エルフ クラスター3 ファミリアセダン、パートナーバン、カローラ クラスター9 クラスター4 ミラ、ミニカバン、キャロル、ワゴンR、アルトバン、セレナ ADバン、カローラバン、カローラ、パートナーバン、ボンゴバン ※太字の車種は、前ページの形式に該当しない車種を示す クラスター5 カローラ、カローラバン、ADバン、パートナーバン、サニー
付録(4).クラスター分析:実施例 • クラスター1(ボロ車買いバイヤー)の場合、 • 状態の悪く経過年数も長く(8~9年)、走行距離が非常に長い(約21km)車 • 看板面数が多い(1バイヤーあたり平均2.2枚) • 「エルフ、パートナーバン、ADバン、カルディナバン、ボンゴバン、キャロル、カローラバン、エルフワイド、タイタン、キャンターガッツ」のいずれか、あるいは商用ステーションワゴン、トラック、商用バンのいずれかに属している車種であり、出品会場は会場4、会場8、会場5、会場3、会場13、会場9、会場16のいずれかである 以上の条件に近い車種を、クラスター1に属する全バイヤーに推薦する 2007年2月28日開催 会場コード:5、第331回、出品番号154 車種名:トヨタ ダイナ 走行距離:254048km ヤブレ・穴・亀裂あり、看板面数6、経過年数11.0028年 こういったことをシステム化することが可能になるのではないか