４．整列のアルゴリズム

４．整列のアルゴリズム

整列（ソート） データデータ k,a,l,c,d,s ５，３，８，１，６，２１，１１ソートアルゴリズムソートアルゴリズム１，３，５，６，８，１１，２１ a,c,d,k,l.s

内部整列と外部整列 CPU CPU 高速アクセス高速アクセスデータの一部全データメモリメモリ低速アクセス全データディスク内部整列外部整列

仮定と要求 内部整列どのデータにも均等な時間でアクセスできる。できるだけ高速に整列したい。（理想的なRAMモデル上のアルゴリズムではこっち）外部整列 CPU－メモリ間のデータ転送速度より、ディスク－メモリ間のデータ転送速度が極端に遅い。全体の整列をできるだけ高速にしたい。（ディスクーメモリ間のデータ転送をあまり行わないようにする。）

ソートアルゴリズムの種類 バブルソート挿入ソート選択ソートヒープソート：教科書に掲載クイックソートマージソートバケットソート基数ソート

ソートアルゴリズムの分類 原理比較による比較によらないバブルソート O(n^2) 選択ソートバケットソート時間量（速度）挿入ソート基数ソートクイックソート計算量はO(n) ヒープソート O(n log n) だけど条件付きマージソート

入出力形態 ２５３８１４ 13 9 入力：配列A A[0] A[1] A[i] A[n-1] 個 n ２３４５８ 9 13 １出力 (終了状態）：配列A A[0] A[1] A[n-1] 個 n 連結リストで入力されるとしてもいいのですが、配列に入力データがあるとして説明します。

バブルソート 方針隣同士比べて、小さいほうを上（添字の小さい方）に順にもっていく。先頭の方は、ソートされている状態にしておく。これらを繰り返して、全体をソートする。

バブルソートの動き１ A ５１５５５５５ 0 ５５３３３３３１３ 1 ３３ 2 ８８８８１８８８１１１１８１ 3 ２２４４２２２ 4 ４非交換４４４４４ 5 13 ２ 13 13 13 ２ 13 13 13 13 6 9 交換 9 9 9 9 9 9 9 7 ２

バブルソートの動き２ ソート済み A １１１１１ 0 １１１５２２２２２ 1 ２２繰り返し交換適用５ 2 ３３３３３３３３５４４４８４４ 3 ８４５５５ 4 ２５５４ 5 ４８８８８８８ 9 9 9 9 9 9 9 6 13 13 13 13 13 13 7 9 13 13

バブルソートの実現１ /*交換用の関数 A[i]とA[j]を交換する。*/ void swap(int i ,int j, datatype *A) { datatype temp; /* データの一次保存用*/ temp=A[i]; A[i]=A[j]; A[j]=temp; return; }

バブルソートの実現2 /* バブルソート*/ void bubble(datatype *A) { int i,j; /* カウンタ*/ for(i=0;i<n;i++) { for(j=n-1;j>i;j--) { if(A[j-1]>A[j]) { swap(j-1,j,A); } } } return; }

バブルソートの計算量 １回目の外側のループで、n-1回の比較と交換２回目 n-2 ・・・ｎ-1回目の外側のループで、1回の比較と交換よって、時間量のアルゴリズム

選択ソート 方針先頭から順に、その位置に入るデータを決める。（最小値を求める方法で選択する。）その位置のデータと選択されたデータを交換する。これらを繰り返して、全体をソートする。ソート済み残りのデータで最小値を選択

選択ソートの動き１（最小値発見） 探索済み A 0 ５５５５５５５５１３ 1 ３３３３３３３３ 2 ８８８８８８８８８未探索１ 3 １１１１１１１５ 4 ４４４４４４４４４ 5 13 13 13 13 13 13 13 13 13 6 9 9 9 9 9 9 9 9 9 7 ２２２２２２２２２ min=0 min=１ min=１ min=3 min=3 min=3 min=3 min=3

選択ソートの動き２ A 済１１１１ 0 １１１１２２２２２３２２ 1 ３３３３ 2 ３８８３最小値発見４４４４４ 3 ５５５５５５５５ 4 ４４４ 13 13 ８８ 5 ８ 13 13 13 9 9 9 9 9 6 9 9 9 ８８ 13 13 ３８ 13 7 ２ min=4 min=7 min=6 min=7 min=7 min=7 min=4

選択ソートの実現１（最小値を求めるアルゴリズム）選択ソートの実現１（最小値を求めるアルゴリズム） /*選択用の関数、A[i]からA[j]をまでの最小値を求める*/ int select_min(int i ,int j, datatype *A) { int k; /* カウンタ */ int min; /* 仮の最小値の添字*/ min=i; for(k=i;k<=j;k++) { if(a[min]>a[k]){min=k;} } return k; }

選択ソートの実現2 /* 選択ソート*/ void select(datatype *A) { int i; /* カウンタ*/ int min; /* 最小値の添字*/ for(i=0;i<n;i++) { min=select_min(i,n-1,A); swap(i,min,A); } return; } なお、説明の都合上、関数select_minを作ったが、関数呼び出しで余分に時間がとられるので、実際は２重ループにするほうが速いと思われる。（でも、オーダーでは、同じ。）

選択ソートの計算量 １回目のselect_minで、n-1回の比較２回目 n-2 ・・・ｎ-1回目のselect_minで、1回の比較よって、回の比較交換は、ｎ回時間量のアルゴリズム

挿入ソート 方針先頭の方は、ソート済みの状態にしておく。未ソートのデータを、ソート済みの列に挿入し、ソート済みの列を１つ長くする。これらを繰り返して、全体をソートする。未ソートデータソート済み

ソート済 挿入ソートの動き A 0 ５３３１１１１１３５５３ 1 ３３３２ 2 ５４８８８４４３未ソート１１１８５ 3 ５５４８８８ 4 ４４４４５ 5 9 ８ 13 13 13 13 13 13 13 6 9 9 9 9 9 9 9 ２ 7 ２２２２２２ 13

挿入ソートの実現１（挿入位置を求める） /*挿入位置を見つける関数、 A[0]からA[i-1]までソート済みのとき、 A[i]の順番を求める。*/ int find_pos(int i ,datatype *A) { int j; /* カウンタ */ for(j=0;j<i;j++) { if(A[j]>A[i]){break;} } return j; }

挿入ソートの実現2 /* 挿入ソート*/ void insert(datatype *A) { int i,j; /* カウンタ*/ int pos; /* 挿入位置の添字*/ for(i=0;i<n;i++) { pos=find_pos(i,A); for(j=n-1;j<pos;j--) { swap(j-1,j,A); } } return; }

挿入ソートの計算量 n-1回目の外側のループで、n-1回の比較あるいは交換 n-2回目 n-2回の・・・ 1回目 1回の比較あるいは交換よって、比較と交換回数の合計は、時間量のアルゴリズム（挿入ソートを元に高速化した、シェルソートっていうものもあるが省略。）

ヒープソート 方針ヒープを使ってソートする。先頭から順にヒープに挿入し、データ全体をヒープ化する。最大値を取り出して、最後のデータにする。 0 13 2 １４ 9 4 5 3 ２ 6 3 ８ 5 １ 7

ヒープソートの動き前半１ 配列ヒープ 1 2 3 4 5 6 7 0 ５ 13 A ３８１４ 9 ２ 0 5 ５ 13 ３８１４ 9 ２ヒープ未ヒープ 0 5 ５ 13 ３８１４ 9 ２１ヒープ未ヒープ 3

0 13 2 １ 9 ４ 4 5 3 ２ 6 3 5 ８１ヒープソートの動き前半２配列ヒープ 1 2 3 4 5 6 7 0 0 ８ 13 A ８３５１４ 9 ２ 2 １ 3 5 ヒープ未ヒープちょっと省略 1 2 3 4 5 6 7 0 A 13 ４ 9 ２３５８１ 7 ヒープ

ヒープソートの動き後半１ 0 13 1 2 3 4 5 6 7 2 0 １ 9 ４ A 13 ４ 9 ２３５８１ 4 5 3 ２ 6 3 ヒープ 5 ８ 7 １最大要素を、ヒープから削除し後ろに挿入 0 9 2 1 2 3 4 5 6 7 0 １４８ 9 A ４８２３５１ 13 4 5 3 ２ 6 3 5 １ヒープソート済

ヒープソートの動き後半２ 1 2 3 4 5 6 7 0 0 ８８ 2 A ４５２３１ 9 13 １４ 5 ヒープソート済 4 5 3 ２ 3 １ちょっと省略３８ A １２４５ 9 13 ソート済

ヒープソートの実現 void heap_sort(datatype *A) { int i; /* カウンタ */ datatype max; /*最大値*/ /* ヒープ化 */ for(i=0;i<n;i++){insert_heap(A[i],A);} /* 最大値を順に後ろに挿入*/ for(i=n-1;i>=0;i--) { max=delete_max(A); A[i]=max; } return ; }

ヒープソートの計算量 ヒープ化の部分操作insert_heap(A) １回あたり、時間量 n回行うので、時間量最大値発見と移動の部分操作delete_max(A) １回あたり、時間量 n回行うので、時間量これらは、１づつ行われるので、時間量のアルゴリズム（実は、ヒープ化の部分は、の時間量で実現する方法もあるが、省略）

マージソート 方針問題を小分けにして、あとで組み合わせる。（分割統治法）小分けした問題は、再帰的にソートする。もしソートされた２つの配列があれば、それらのそれらを組み合わせて、大きいソートの列をつくる。（マージ操作） B １３５８３８ A １２４５ 9 13 C ２４ 9 13

マージの動き B １３５８ A C ２４ 9 13 B １３５８ A １ C ２４ 9 13 ソート済み B １３５８ A １２ C ２４ 9 13

分割もし２つのソート列があったら、マージ操作によって、長いソート列がえられることがわかった。どうやって、２つのソート列を作るのか？おなじ問題で、問題のサイズが小さくなっていることに注意する。列を二等分にして、再帰的にソートする。

マージソート動き前半（分割） 3 1 2 4 5 6 7 0 13 A ５３８１４ 9 ２ A[0]からA[3]までソートして。 A[4]からA[7]までソートして。 1 2 3 0 4 5 6 7 13 ５３８１４ 9 ２ m_sort(0,1,A) m_sort(2,3,A) 1 0 2 3 6 7 4 5 ５３ 13 9 ２８１４ 6 1 3 0 2 5 7 4 13 ５３８１４ 9 ２

マージソート動き後半（マージ） 1 2 3 4 0 5 7 6 13 ５３８１４ 9 ２ marge 6 4 5 7 2 3 0 1 6 7 13 ２ 9 ４１８３５ 1 2 3 0 4 5 6 7 ８１３５２４ 9 13 5 0 1 2 3 4 6 7 A 9 １２３４５８ 13

/* 配列Bと配列Cを配列Aにマージする。概略です。細かい部分は省略*/ void marge(int posA,datatype *A,datatype *B ,int numB,datatype *C,int numC) { int iA=0,iB=0,iC=0; /* カウンタ*/ while(iA<=numB+numC-1) { if(B[iB]<C[iC]) { A[posA+iA]=B[iB]; iB++; } else { A[posA+iA]=C[iC]; iC++ } iA++; } return; } マージの実現

マージソートの実現 /*概略です。細かい部分は省略*/ void marge_sort(int left,int right,datatype *A) { int mid; /* 配列の中央 */ datatype B[n],C[n]; /*作業用の配列*/ if(left==right)return; mid=(left+right)/2; marge_sort(left,mid,A); marge_sort(mid,right,A); /*ここに、A[left]からA[mid]を配列Bに、 A[mid]からA[right]を配列Cにコピーする処理を書く。 */ marge(left,A,mid-left,B,right-mid,C); return; }

マージソートの計算量 解析を簡単にするため、データを個あると仮定します。まず、マージの計算量を考えます。明らかに、出来上がるソート列の長さに比例した時間量です。とします。マージソートの時間量を以下の再帰式を満たします。これを解いて、

クイックソート 方針問題を小分けにして、あとで組み合わせる。（分割統治法）前半部分は特定要素（ピボット）より小さく、後半部分はピボットより大きく分割する。ピボットの位置を確定し、小分けした問題は、再帰的にソートする。 1 2 3 4 5 6 7 0 ５ 13 A ３８１４ 9 ２ピボット４ 13 A ３２１５ 9 ８小さい大きい

説明上の注意 全てのデータが異なるとして、説明します。クイックソートのアルゴリズムでは、ピボットの選び方にあいまいさがあります。（自由度といったほうがいいかも。）ここでは、ソート範囲の最初の要素をピボットとして説明します。実際に、プログラミングするときは、もっといろんな状況を考えましょう。

クイックソートの動き前半（分割） ５ 13 A ３８１４ 9 ２ピボットより小さい値を探すピボットより大きい値を探す５ 13 A ３２１４ 9 ８探索が交差したら終了。ピボットと前半最後の要素を交換し、あとは再帰呼び出し。５ 13 A ４３２１ 9 ８

クイックソートの動き後半（再帰） 1 2 3 4 5 6 7 0 ５ 13 A ４３２１ 9 ８ A[0]からA[4]までをソートして A[5]からA[7]までをソートして q_sort(0,3,A) 1 2 3 4 0 5 6 7 ５ A ４３２１ 13 9 ８位置確定 3 1 2 0 5 6 7 A １３２４ 13 9 ８以下省略

クイックソートの実現１（分割） /*概略です。細かい部分は省略*/ int partition(int left,int right,datatype *A) { int i,j; /*カウンタ*/ i=left+1; j=right; for(;;) { while(A[i]<A[left]){i++;} while(A[j]>A[left]){j--;} if(i>=j){break;} swap(i,j,A); } return(i); }

クイックソートの実現2(再帰） /*概略です。細かい部分は省略*/ void quick_sort(int left,int right,datatype *A) { int pos; /*分割位置 */ pos=partition(left,right,A); swap(left,pos,A); quick_sort(left,pos-1,A); quick_sort(pos+1,right,A); return; }

クイックソートの計算量 クイックソートは、最悪時の計算量と平均の計算量が異なります。これらは、ピボットの選び方にもよりますが、どんな選び方によっても最悪のデータ初期配置があります。ここでは、最悪計算量と、平均計算量の両方を考えます。

クイックソートの最悪計算量 まず、関数partition（i,j,A）の1回の時間量は、 j-i+1に比例した時間量です。再帰の同じ深さで、parttition()の時間量を総計するとになります。いつも０個、ピボット、残りのように分割されるのが最悪の場合です。つまり、ピボットとしていつも最小値が選択されたりするのが最悪です。（他にも最悪の場合はあります。）このときでも、partition（i,j,A）の実行には、j-i+1回の演算が必要です。これは、結局選択ソートの実行と同じようになり、最悪時間量のアルゴリズムです。

初期状態として、通りの並びが すべて等確率だとしましょう。クイックソートの平均計算量クイックソートの時間量をとします。ピボットが番目のときには、以下の漸化式を満たす。小さい方の分割を再帰的にソートする分大きい方の分割を再帰的にソートする分 partition()分ピボットの順位は、n通り全て均等におこるので、それらを総和して、nで割ったものが平均時間量２分探索木のときの解析と同様にして、

ちょっと寄り道（一個一個が大きいデータを処理する工夫）ちょっと寄り道（一個一個が大きいデータを処理する工夫）配列A A[0] A[1] A[i] A[n-1] A[j] 名前、生年月日、住所、経歴、趣味 A[j] A[i] 交換は大変

大きいデータを処理する工夫２ 工夫：大きいデータは動かさずに、たどり方だけがわかればいい。 data1 data2 配列A A[0] A[1] A[i] A[n-1] 0 1 i n-1 配列B B[0] B[1] B[i] B[n-1] 添字の配列Bだけを操作して、配列Aは動かさない。 swap(0,i); （data1が最小値のとき。） data2 data1 配列A A[0] A[1] A[i] A[n-1] i 1 0 n-1 配列B B[0] B[1] B[i] B[n-1]

４．整列のアルゴリズム

４．整列のアルゴリズム

Presentation Transcript