大偏差理論の基礎(1)

大偏差理論(Large deviation theory)は,大数の法則,中心極限定理とともに,確率論における有益で重要な極限定理です。

このブログで何回かに分けて大偏差理論の基礎を紹介し,その応用例をいくつか説明したいと思います。

大偏差理論は,大数の法則,中心極限定理に比べると,新しい極限定理です。
大偏差理論は,非常に幅広い応用が考えられます。例えば,「稀事象の発生確率」を論じたり,調べたりするとき等に非常に役立つ理論です。

情報理論の基礎(2)

最初に,情報理論においてもっとも基本的な概念であるエントロピー(entropy)を導入します。
エントロピーは,確率変数,あるいは,それを生成する情報源の持つ不確実性を表す尺度であると考えることができます。

Xを有限集合{\cal X}上の確率変数とします。
確率変数Xは,確率関数(probability mass function) p_{X}(x)={\mathbb P}\{ X = x \}, x \in {\cal X}を持つことにします。

今後,特に必要のない限りは,表記の簡便性のために確率関数をp_{X}(x)のような表記ではなく,p(x)のような表記で表すことにします。
したがって,p(x)p(y)はそれぞれ異なる確率変数X, Yに対する確率関数で,それぞれp_{X}(x), p_{Y}(y)の意味であるとします。

このときエントロピーは以下のように定義されます。

 

定義
離散確率変数XのエントロピーH(X)

 H(X) = - \sum_{x \in {\cal X}} p(x) \; \log p(x)={\mathbb E}[\log \frac{1}{p(X)} ]

によって定義される。

 

上記のエントロピーは,確率関数pの汎関数(functional)で
(すなわち,確率関数pから実数(後で示すように,この場合は,非負の実数)への写像),pに依存していることを強調するときはH(p)と表記するときもあります。

情報理論においては,対数\logの底はeではなくて,2にとることが多いです。これは,現代のディジタル通信においては”0″, “1”の2値で通信が行われることが多く,対数\logの底を2として定義したエントロピーは,2値で通信が行われる場合のXを定めることができる平均符号長の下限を表すことになるからです。

このブログの情報理論に関する記事では、特に断りのない限りは対数の底は2であるとします。しかしながら,対数\logの底はどのような値にとっても理論自体には全く関係がありません。
対数\logの底を2にとって定義したエントロピーの単位は“bit(ビット)”と呼ばれます。また,対数\logの底をeにとって定義したエントロピーの単位は“nat(ナット)”と呼ばれます。底をbにしたときのエントロピーをH_{b}(x)と表すことにし,b=2の場合は省略することにします。

また、表記の簡便性のために,0 \log 0 =0とします。このことは,x \rightarrow 0のときx \log x \rightarrow 0であるので(ロピタルの定理を使って示せます),連続性から正当化できます。
したがって,確率0の項を付け加えてもエントロピーは変化しないことになります。

最後にもう一度,エントロピーは確率変数Xの分布の汎関数である
ことに注意しましょう。したがって,エントロピーは,確率変数Xの実現値には依存せず,それぞれの値の実現確率にだけに依存します。

 

情報理論の基礎(1)

情報理論は,「通信」に関連して出てくる以下の2つの最も根源的な問いに答えるための理論です。

  • データは,究極的にはどこまで圧縮可能なのか? (答え: エントロピー)
  • 通信において,究極的にはどこまでの伝送速度を達成できるのか? (答え: チャネル容量)

このことから,情報理論は通信理論の一部であると考えることができます。
しかしながら, 情報理論は,統計物理(熱力学),コンピュータサイエンス(コルモゴロフ複雑性(Kolmogorov complexity)あるいはalgorithmic complexity),統計的推測(Occam’s Razor: “The simplest explanatoin is best”),確率統計(最適な仮説検定と推定)などの諸問題とも深く関連しており,広大な広がりを持った理論です。

このブログでは[1]の参考文献を参考にしながら,情報理論の基礎に関する記事をこれから書いていくことにします。

[参考文献]

[1]  T.  M. Cover and J. A. Thomas,  Elements of Information Theory, Second Edition, Wiley, 2006.

 

確率論の基礎(6)

もう少しだけ\sigma-集合体の話を続けます。

応用上重要な\sigma-集合体として,実数{\mathbb R}上で定義されるBorel \sigma-集合体(Borel \sigma-field) {\cal B}({\mathbb R})があります。

今回は、このBorel \sigma-集合体について簡単に説明します。
Borel \sigma-集合体{\cal B}({\mathbb R})とは,すべての半開区間(a,b]の集まりから生成される{\mathbb R}上の\sigma-集合体のことです。ここにa,b \in {\mathbb R}です。

Borel \sigma-集合体は,半開区間(a,b]だけでなく様々な区間が要素として入ります。
例えば,\{ a \}, (a, b), [a, b], (a, +\infty), [a, +\infty),  (-\infty, a]等々です。

同様に,\overline{\mathbb R}上で定義された拡張されたBorel \sigma-集合体{\cal B}(\overline{\mathbb R})を考えることも出来ます。
ここに\overline{\mathbb R}=[-\infty, +\infty]です。

さらに,Borel \sigma-集合体は,容易にn次元ユークリッド空間に拡張できます。
n次元ユークリッド空間に拡張したBorel \sigma-集合体を{\cal B}({\mathbb R}^{n})で表すことにします。

 

確率論の基礎(5)

前回の記事「確率論の基礎(4)」で,\sigma-集合体は「観測」にも密接に関連したものであると言いました。
ここまでは,\sigma-集合体が与えられていると考えてきましたが,例えば,数理ファイナンスへの応用の場合を考えると,投資家の投資戦略は「現時点までの観測」(から得られる情報)に基づいた戦略を取ることが出来るはずです。
そこで,投資家が現時点で持っている情報を表すために「観測」から作られる\sigma-集合体を考えることが必要になります。

このような状況を考える際に必要となるのが生成された\sigma-集合体です。

以下で生成された\sigma-集合体を定義します。

{\cal P}(\Omega)\Omegaのすべての部分集合の集まりとし,{\cal C}{\cal P}(\Omega)の部分集合族,すなわち,{\cal C} \subset {\cal P}(\Omega)である部分集合の集まりとします。

ここで,{\cal C}を含む\Omega上で定義されるすべての\sigma-集合体の集まりを考えます。
この集まりは,{\cal P}(\Omega)がその集まりに入っているので空ではありません。
また,これらのすべての\sigma-集合体の積は,やはり\sigma-集合体になり,それは{\cal C}を含む最小の\sigma-集合体になります。この\sigma-集合体のことを{\cal C}によって生成される\sigma-集合体と呼び,\sigma({\cal C})と表記します。

要は,部分集合の集まり{\cal C}\sigma-集合体になっていないかもしれないので,\sigma-集合体になるように必要十分な部分集合を加えて\sigma-集合体にしたものが\sigma({\cal C})であると考えるとよいです。

 

確率論の基礎(4)

今回は,\sigma-集合体とその意味についてもう少し考えます。

まず,ある標本空間\Omegaに対して,\Omega上の\sigma-集合体は一意ではないことに注意して下さい。
例えば,
{\cal F}_{1} = \{ \emptyset, \Omega \}.
{\cal F}_{2} = \{ \emptyset, A, A^{c}, \Omega \} \quad (A \subset \Omega).
 {\cal F}_{3} = \{ \Omega のすべての部分集合  \}.
とすると,{\cal F}_{1}, {\cal F}_{2}, {\cal F}_{3}はすべて\Omega上の\sigma-集合体となります。

 

今まで\sigma-集合体という何か小難しそうなものを考えてきましたが,これは結局何なのでしょうか?
以下で,確率論の応用における一つの考え方を大まかに説明します。

まず,上で見たように同じ標本空間上で定義される\sigma-集合体は一意ではないことに注意しましょう。
では,上の例での{\cal F}_{1}, {\cal F}_{2}, {\cal F}_{3}の違いは何なのでしょうか?
一つの答えは,これらは「標本空間をどれだけ細かく区別出来るか」の違いです。

例えば,{\cal F}_{1}は最も小さい\sigma-集合体ですが(最も小さいという意味は,任意の\sigma-集合体{\cal F}について{\cal F}_{1} \subset {\cal F}が成立するという意味です。),これは実質的には何も区別できない\sigma-集合体です。{\cal F}_{2}は,事象Aが発生するかどうかだけを区別出来る\sigma-集合体です。また,{\cal F}_{3}は最も大きい\sigma-集合体ですが(最も大きいという意味は,任意の\sigma-集合体{\cal F}について{\cal F}_{3} \supset {\cal F}が成立するという意味です。),これは標本一つ一つまで区別出来ます。

 

したがって,\sigma-集合体は「情報」に関連していると解釈することが出来ます。「情報」を豊富に持っているということは,
「物事をより細かく分類できる」=「標本空間をより細かく区別出来る」
ということになります。
この観点からは,{\cal F}_{1}よりも{\cal F}_{2}が, {\cal F}_{2}よりも{\cal F}_{3}が情報を豊富に持っている\sigma-集合体であると言えます。

 

このことを,数理ファイナンスへの応用を考慮した言葉でもう少しだけ説明しておきます。

もし投資家が{\cal F}_{3}に相当する情報を持っているならば,その投資家にとっては,すべての事象に関して確率的な曖昧さは全くなくなることになります。

また,事象Aを「日経平均が時刻txである」という事象とするならば,もし投資家が{\cal F}_{2}に相当する情報を持っているならば,その投資家にとっては「日経平均が時刻txである」かどうかは,確率的な曖昧さはなく既知であることになります。

このような観点からは,確率は持っている情報を最大限利用しても残る曖昧さの大きさを表していると考えることもできます。
応用上は,「情報」は「観測」によって得られることが多いため,\sigma-集合体は「観測」にも密接に関連したものであるとも言えます。

 

 

PASTA (Poisson Arrivals See Time Averages) (2)

今回は,PASTA (Poisson Arrival See Time Averages)を数学的に表現し,定理の形で述べることにします[1,2]。

N \equiv \{ N(t) \}_{t \geq 0}を,ある状態空間上の値を取る確率過程とします。
この確率過程のことを「システム」と呼ぶことにします。
BNの状態空間の任意の集まりとします。
さらに,率\lambda>0のポアソン過程\Lambda \equiv \{ \Lambda(t) \}_{t \geq 0}を考えます。このポアソン過程とシステムの間には,相互作用があるものとします。
その相互作用は,たとえば,待ち行列システムへの適用においては,Nをシステム内客数を表す確率過程,\Lambdaを客のシステムへの到着を表すポアソン過程と考えて,客の各到着時点でNが1だけ増加するというような相互作用です。

 

システムがBにある時間の割合とシステムがBにあるのを見る到着の割合を考えます。この目的のためにt \geq 0で以下のものを定義します。

 U(t) = 1_{\{ N(t) \in B \}}

 \overline{U}(t) = \frac{1}{t} \int_{0}^{t} U(s) \; ds

 A(t) = \int_{0}^{t} U(s) \; d \Lambda(s)

 \overline{A}(t) = \frac{A(t)}{\Lambda(t)}

Uのサンプルパスは,確率1で左連続で右極限を持つとします。
この左連続性は,上記の待ち行列システムの例で言えば,到着がシステム内客数に影響を及ぼすのは(すなわちシステム内客数が+1されるのは),その到着直後であると考えることに相当します。

上記の定義で,\overline{U}(t)はシステムN[0,t]の間にBにある時間割合を示し,\overline{A}(t)[0,t]の間に発生する到着でシステムNBにあることを見る到着の割合を示しています。

到着は何らかの形でシステムに影響を及ぼすことを想定しているので,\LambdaN,したがって,\LambdaUは依存した確率過程になります。しかし,どのような形での相互作用や影響を許すわけではありません。ここでは,システムが予見(anticipation)を持たない,すなわち,\Lambdaの将来の増分とUの履歴が独立であることを仮定します。この仮定はLAA (Lack of Anticipation Assumption)と呼ばれ,きっちり書くと以下のようになります。

仮定 Lack of Anticipation Assumption (LAA).
t \geq 0において,\{ \Lambda(t+u) - \Lambda(t): \; u \geq 0 \}は,\{U(s): \; 0 \leq s \leq t \}と独立である。

 

このLAAのもとで,以下の定理が成立します。

定理 PASTA.
LAAのもとで,t \rightarrow \inftyのとき,\overline{U}(t) \rightarrow \overline{U}(\infty) w.p.1 ならば,かつそのときに限り,\overline{A}(t) \rightarrow \overline{U}(\infty) w.p.1である。

 

以下に仮定と定理に関するコメントを述べます。

1. \overline{U}(\infty)は,システムがエルゴード的であるような場合には定数になりますが,そうである必要はありません。例えば,システムNが吸収状態をいくつかもつ連続時間マルコフ連鎖であるとし,システムの初期状態N(0)=iは過渡状態であるとします。ここでBがある吸収状態であれば,\overline{U}(\infty)は確率変数になり,Bの吸収状態に吸収されれば\overline{U}(\infty)=1,そうでなければ\overline{U}(\infty)=0となります。

2. Wolffの本[1]においては,LAAに上記の仮定に加えて,各t \geq 0において,\{ \Lambda(t+u) - \Lambda(t): \; u \geq 0 \}\{ \Lambda(s): 0 \leq s \leq t \}と独立であるという,\Lambdaに関する独立増分性が仮定されています。
しかしながら,この仮定は,\Lambdaがポアソン過程のとき独立増分性を持つので,本来不要です。そのため,このブログにおけるLAAは[3]に記述のあるLAAと同様のものをLAAとして記述してあります。このブログに記述してあるLAAはPASTAが成立するための十分条件になります。

次回から,数回に分けて定理 PASTAを証明します。

 

[参考文献]
[1] R.W.Wolff, Stochastic modeling and the theory of queues, Prentice-Hall, 1989.
[2] R.W.Wolff, “Poisson Arrivals See Time Averages,” Operations Research, vol.33,
pp.223-231, 1982.
[3] B.Melamed and D.D.Yao, “The ASTA property,” in Frontiers in queueing: models and problems, (J.Dshalalow, Ed), CRC press, 1995.

PASTA (Poisson Arrivals See Time Averages) (1)

これから何回かに分けてPASTAについて議論したいと思います。
PASTAと言っても,私が大好きでよく食べる食物のパスタのことではありません^^;;
ここで言うPASTAとは,待ち行列理論においてよく知られているポアソン到着に関する性質、
Poisson Arrivals See Time Averages」,略してPASTAと呼ばれる性質のことです。

PASTAとは,大まかに簡単に言うと

定常ポアソン到着が,到着時にシステムの状態がある状態にあることを
観察する割合は,システムがそのある状態にある時間割合に一致する

ということになります。言い換えると,PASTAとは,

定常ポアソン過程の増加点でシステムを観測したとき
観測時点直前での事象平均は,時間平均に一致する

という性質のことです。

 
PASTAは,待ち行列の解析においては,到着が定常ポアソン過程にしたがう待ち行列システムにおいて,待ち行列長の定常分布を客の到着直前の待ち行列長の分布に関連付けるためによく使われます。
待ち行列システムの解析おいては,待ち行列長の定常分布を得ることの方が客の待ち時間の分布を得ることよりも簡単であることが多いです。そのため,まず解析によって,待ち行列長の定常分布を得て,それにPASTAを適用して,客の到着直前の待ち行列長の分布を得て,そこから客の待ち時間の分布を得るというアプローチがよくとられます。

 

次回から,数学的な定式化をきっちり行ってPASTAについて議論したいと思います。

 

確率論の基礎(3)

前の記事「確率論の基礎(1)」,「確率論の基礎(2)」において,確率測度は標本空間の部分集合の集まり上で定義されている部分集合の「大きさ」を測るものであると言いました。

さらに,標本空間の部分集合の集まりはどのようなものでも良いわけでもなく制約があり,その制約は主に部分集合の「大きさ」を矛盾なく定義するためのものであることを述べました。

では,どのような部分集合の集まりなら部分集合の「大きさ」を矛盾なく定義できるのでしょうか?

部分集合の集まりの各要素で「大きさ」を矛盾なく定義できるためには,以下の性質を持っていることが必要と思われます。

考える部分集合の集まりは,補集合演算と可算回の和,積演算について閉じている必要がある。

すなわち,ある部分集合の大きさが定義されるのであれば,その補集合の大きさも定義されないと不都合だし,ある部分集合A, Bの大きさが定義されるのであれば,ABの和集合の大きさも定義されないと不都合だし,ABの積集合の大きさも定義されないと不都合だということです。さらに,それらの演算の結果できた集合に,さらに演算を可算回繰り返して出来た集合も大きさが定義されないと不都合であるということです。


上で述べたような性質を持つ部分集合族のクラスは, \sigma-集合体(\sigma-field, \sigma-加法族)と呼ばれ,以下のように定義されます。

定義: 標本空間\Omegaの部分集合の集まり{\cal F}が以下の条件を満たすならば,それは\Omega上の\sigma-集合体(\sigma-field on \Omega)であると言われる。

  1.  \Omega \in {\cal F}
  2.  A \in {\cal F} \Rightarrow A^{c} \in {\cal F}
  3.  A_{i} \in {\cal F} \; (i=1,2,\ldots) \; \Rightarrow \cup_{i=1}^{\infty} A_{i} \in {\cal F}

ここにA^{c}Aの補集合を表す。

ド・モルガンの法則から集合の積は集合の和と補集合で表すことが出来るので,上の定義で可算回の積演算についても{\cal F}は閉じていることになります。

 

確率は,\sigma-集合体{\cal F}のすべての要素に対して割当てられます。
すなわち,{\cal F}の任意の要素,すなわち,任意の事象Aの「大きさ」を測ることが可能で,
その「大きさ」のことを事象Aの確率と呼びます。

このようにして定義された(\Omega, {\cal F})可測空間(measurable space)と呼ばれます。

バニラオプションの高次グリークス(2) 残存時間に関する2階偏微分

今回はオプションの高次グリークスで,Thetaを残存時間で偏微分したものの符号を反転させたもの,すなわち,残存時間に関する2階偏微分を表す高次グリークスを考えてみます。

この高次グリークスですが,Wikipedia

http://en.wikipedia.org/wiki/Greeks_(finance)

では,なぜか名前が見当たりませんし,式も提示されていません。

ちなみに,Thetaはオプション理論価格を残存時間で偏微分したものの符号を反転させたもです。

バニラオプションのThetaは,Black-Scholes式の設定のもとでは,
Callオプションの場合

 -\frac{S \phi(d_{1}) \sigma}{2 \sqrt{ \tau }} -r K e^{-r \tau} \Phi(d_{2})

で与えられ,

Putオプションの場合

 -\frac{S \phi(d_1) \sigma}{2 \sqrt{\tau}} +r K e^{-r \tau} \Phi(-d_{2})

で与えられることが知られています。ここに,Sは原資産価格,Kは権利行使価格,\tauは残存時間,\sigmaは原資産価格過程のボラティリティ,rは無リスク資産の金利,\phi(x)は標準正規分布の密度関数,\Phi(x)は標準正規分布の分布関数です。これらのThetaに関する式は,上にURLを示したWikipediaにも掲載されています。

今回求めようとしている高次グリークスは,これらのThetaを表す式を-\tauで偏微分すればよいわけです。

ですので,残存時間に関する2階偏微分を表す高次グリークスは,

Callオプションの場合は,

-\frac{S \phi(d_1) \sigma}{2 \sqrt{\tau}}\left[ d_1 \frac{\partial d_{1}(\tau)}{\partial \tau}+ \frac{1}{2 \tau} \right]- r K e^{-r \tau} \left[ r \Phi(d_2) - \phi(d_2)\frac{\partial d_{2}(\tau)}{\partial \tau}\right]

で与えられ,
Putオプションの場合は,

-\frac{S \phi(d_1) \sigma}{2 \sqrt{\tau}}\left[ d_1 \frac{\partial d_{1}(\tau)}{\partial \tau}+ \frac{1}{2 \tau} \right]+ r K e^{-r \tau} \left[ r \Phi(-d_2) + \phi(d_2)\frac{\partial d_{2}(\tau)}{\partial \tau}\right]

で与えられることになります。ここに,\phi(x)は標準正規分布の密度関数で,

\frac{\partial d_{1}(\tau)}{\partial \tau} = \frac{1}{2 \sigma \sqrt{\tau}}\left[ r + \frac{\sigma^{2}}{2} - \frac{1}{\tau} \log(S/K) \right] .

\frac{\partial d_{2}(\tau)}{\partial \tau} = \frac{1}{2 \sigma \sqrt{\tau}}\left[ r - \frac{\sigma^{2}}{2} - \frac{1}{\tau} \log(S/K) \right] .

です。