発生率に関して下記の色々な集計方式がある。 どれが正しい?なぜ使い分けているか?どう使い分けるべきか?本当にあってる?などいつも迷うので整理。
- 発生率
- A. 期中の発生count / 期初のcount
- B. 期中の発生count / 長さ(対象eventは期間の終わりまでextend)
- C. 期中の発生count / 長さ(対象eventはextendしない)
- D. Cを解約力の最尤推定量とみなして、絶対発生率に変換。1 - exp(-C)
- A/E
- 上記のA,B,Cの分母に予定絶対発生率を乗じたもの
細かい議論は後回しで結局どう集計すべきか、注意すべき事は何か。
-
給付により脱退が発生するもの
- Dが発生率の集計の基本。(A/Eを求める必要がない限りある意味一番正確で使い勝手がよい。が、発生率が違う集団との混合は注意した方がよさそう。指数分布の混合が指数分布、と多分言えないため。)
- Lapse: 基本的にはAを使用する。状況によってはBを使用する。
- Mortality: Cを使用する。高齢帯、条件体など発生率の水準が高い場合はBを使用する。
- Bを使用する際はどのタイムフレームでのrateを考えているかによって適切に長さの単位を揃える必要がある。 発生率×長さは近似なのでフレームを揃えないとずれが無視できなくなるため。
-
脱退が発生せず複数回給付が発生するもの
- Cを使う。期間内で一様に発生すると仮定すれば、近似ではなくそのまま正確な値となる。
- EA teamが作成しているのは絶対発生率。相対発生率はその他の発生率の変動により変動してしまうため柔軟性がないため。
- 基本的に一致推定量になっているか、という観点から考察する。分散の観点からの話はしない。
- 給付により脱退が発生するもの
- Count baseで考えていくが、Amount baseへ拡張しても一致性は変わらないはず。分散は大きくなるはず。
- 「脱退event発生までの待ち時間が指数分布」に従うモデルを考える。着目している要因による脱退までの時間tx、その他の要因による脱退までの時間tyがそれぞれ強度λx, λyの指数分布に独立に従うと仮定する。
- tx < tyの場合Xにより脱退とみなす。ty < txの場合はその他の要因による脱退が起こったと捉える。
- ベルヌーイ分布ではなく指数分布を使う理由は、脱退までの時間に情報が含まれていると考えた方が自然で、複数の脱退要因がある場合にも分析しやすいため。
- Aだけはベルヌーイ分布を仮定していると考えられる。そのためAは基本的にlapse分析などその他の脱退が無視出来るものにしか使えない。
- 「期間内で一様にeventが発生する」という仮定も考えられるが、強度一定の仮定が失われるため扱いづらい。
- 例:CY別分析などでははPYの途中から観測が始まり途中で終わる事がある。同じ長さでも期間のどこか、という情報によってその長さに対する予測発生率が変化してしまう。
- このモデルは基本的には「event発生までの待ち時間が指数分布」の近似と考えるべき。(期間内での脱退が少なければ適用して問題ない。)
- 脱退が発生せず複数回給付が発生するもの
- 期間内で一様に発生すると仮定して、単純に長さ× 絶対発生率が近似ではなくそのまま正確な値となる。
一番基本的。と思いきやそうでもない。これで求められるのは相対発生率であるため、分析対象以外の脱退要因が存在しないかほぼ無視出来る時のみにしか使えない事に注意。
要はlapseには使えるが、mortality, morbidityにはそのまま使うべきではない。
mortality, morbidityに使用する場合は解約率を用いて絶対発生率へ変換する必要がある。
- merit
- lapseのように期間内で強度にスキューがあると考えられる場合でも、正しく推定出来る。A以外は基本的に期間内では強度一定を仮定しており、そうでない場合は分析が歪んでしまう。
- (一見)シンプル。説明がしやすい。
- demerit
- 複数の脱退要因がある場合は使用できない。(しづらい?)
- 各ノードの観測期間の長さを揃える必要がある。
- 速報性が失われる。Fully observedで見ないと分析が歪むため。
- Calendar別での分析に使用できない。
mortalityの分析の際はこちらを使用する。
- merit
- 各ノードの期間の長さを揃える必要がない。
- Calendar別での分析も可能。Fully Observedが求められない分速報性がある。
- 複数脱退要因があっても歪まない。
- 各ノードの期間の長さを揃える必要がない。
- demerit
- 期間内で強度にスキューがある場合は歪む。(強度一定の仮定が必要)
Dは一致推定量になっておりこれが一番正確。(Cが強度の最尤推定量になっている事は指数分布を仮定すれば簡単に証明できる)
B, CはDのある種の近似と考えられる。近似精度についてはBの方が圧倒的によい。
なぜ近似になっているか(どこでずれが生じるか)は
- 別の脱退要因がある場合、eventが観測されたノードに関して本来は別の脱退要因が起きた(るであろう)ところまで伸ばした長さを使うのが適切。
- 全てを観測期間の終わりまで伸ばすのはある意味伸ばし過ぎであるが、別の脱退要因の発生率が低い場合はこれは無視出来る。
- 「発生数/長さ」で求められるのは強度。発生率の水準が大きい場合、強度と発生率の差は大きくなる。
上記2つに近似による真の値からのずれは逆方向に働いており、Bは発生率の水準が高い場合でも高い近似精度になっていると考えられる。
近似精度についての詳細は[BCDの近似精度.xlsx]を参照。
まず発生率を経由する方式がある。Actual lapse rate/ Expected rapse rate。これはシンプルである。
しかしこれだと集計区分を合算する事ができないため、基本的には以下の予定発生数を計算して分母とする計算方法が使用されている。
- A': 期中の発生count / (期初のcount × 予定絶対発生率)
- B': 期中の発生count / (長さ(対象eventは期間の終わりまでextend) * 予定絶対発生率)
- C': 期中の発生count / (長さ(対象eventはextendしない) * 予定絶対発生率)
A'は脱退要因が一つしかない場合(lapseのような)には問題がない事は明らか。
B', C'は発生率を議論した際と同じように考えれば分母が予定発生数の近似になっていることがわかる。
また他に注意すべき点として、Expectedと言いながら[分析対象以外の要因による脱退の情報]は事後的に使ってしまっていることであるが、未来の情報でも分析対象以外の脱退の情報であれば使うのが経験分析としては自然。これは他の脱退要因が予測とかなり違った場合にそれにより対象事象発生率の推定が歪められるのを阻止するためである。
つまり、別要因による脱退という事後の情報に関して把握した上で、対象事象の発生数を予測して実績と比べるという考え方である。(Valuationで使用しているExpectedとは違う)
- 別の仮定のもとでやればCは厳密に正しいのでは?
→ 自分が知らないだけでそういうモデルもあるかもしれない。
ただ一部で使われている「期間内で一様にeventが発生する」という仮定に関していうと、そこでもCは一致推定量になっていないはず。
その後の別要因の脱退を考慮せず、伸ばしすぎ、という点は変わらないため。
- 1件中1件(期央で)起きたら発生率100%と推定すべき?
→ 二項分布を仮定しているならYES。指数分布を仮定して場合はNO。
指数分布モデルを仮定しているなら解約力の最尤推定量が1/0.5 = 2, そこから計算される絶対発生率が1 - exp(-1/0.5) ≒ 86%。
長さ方式でやっている以上、暗に指数分布モデルが仮定されているため、伸ばして分母1にしたら100%になるからok、というのはちょっとおかしい。
- monthly persistency product方式について
ULのlapse monitoringで使用されている。Calendarでの分析に使用しやすい。 基本的にはカプラン・マイヤー法と呼ばれている生存解析の代表的な手法と同一。 グリーンウッドの公式というものがあり信頼区間(正規分布近似)も簡単に出せる。
- 強度が変わるような分布としてWeibull分布などを用いて最尤推定などもある。面倒なので実務では使わないはず。