選択確率について2

 \pi

Williams-Daly-Zachery theromについて書きます。

expected value functionをmean utilityで微分するとその選択肢の選択確率になるよっていうやつです。

 

Expected value functionはMcFadden's social surplus functionとも呼ばれます。確率項を$\epsilon$として、それについてvalue functionの期待値をとったものがexpected value functionです。これをstate (x)の関数として$V(x)$と書く。

 

これを使ってstate (x)とaction (d)を変数に持つaction specific value functionは以下のように書ける。ただし$f(x^{'}| x, d)$は現在のstateとactionによって確定する遷移確率とする。

$$v(x, d) = u(x, d) + \beta \int V(x^{'}) f(x^{'} | x, d) \mathrm{d} x^{'}$$

 

確率項についてadditive separabilityを仮定、つまりある選択肢から得る効用はその選択肢についてのdeterministicな項と確率項の和でかけるものとする。

この時、expected value functionは以下のように表現できる。ただし$g(\epsilon | x)$は確率項の分布とする。action spaceを$\left\{ 1,\dots, D\right\}$

$$V(x) = \int \dots \int \max_{d} \left\{ v(x, d) + \epsilon(d) \right\} g(\epsilon(1)\dots \epsilon(D) | x) \mathrm{d}\epsilon(1) \dots \mathrm{d}\epsilon(D)$$

 

$g(\epsilon | x)$をlocation parameterが0でscale parameterが$s$のextreme value distributionとする。ただし確率項は選択肢においてiidとする。

この時$v(x, d) + \epsilon(d)$はlocation parameterが$v(x, d)$でscale parameterが$s$のextreme value distributionである。この時、最大統計量の分布関数は以下のようである。

$$P(\max_{d} V(x, d) + \epsilon(d) \leq x) = \exp(-\exp(\frac{-(x - \alpha)}{s}))$$

ただし、$\alpha = s\ {\rm log} \sum_{d} \exp(\frac{v(x, d)}{s})$

 

要するに最大統計量はlocation parameterが$\alpha$のextreme value distributionである。

先のexpected value functionの定義式はこれを使ってextreme value distributionの期待値として以下のように書き換えられる。ただし$\gamma$はオイラー定数。

$$V(x) = \alpha + s \gamma$$

 

以上をもとにexpected value functionの微分を考える。

\begin{align*}\frac{\partial V(x)}{\partial v(x,d)} &= \int \dots \int \frac{\partial}{\partial v(x,d)}\max_{d^{'}}\left\{ v(x,d^{'})+\epsilon(d^{'})\right\} g(\epsilon(1)\ \dots \epsilon(D) | x) \mathrm{d}\epsilon(1)\dots \epsilon(D)\\[10pt] &= \int \dots \int \left\{ d=\delta(\epsilon(1),\dots,\epsilon(D)) \right\} g(\epsilon \dots \epsilon(D)|x) \mathrm{d}\epsilon(1) \dots \mathrm{d}\epsilon(D)\\[10pt] &= P(d | x)\end{align*}

最初の等式はbouded convergence theoremによる。$\delta(\epsilon(1),\dots, \epsilon(D))$は確率項の関数として選択する選択肢を示す関数である。

 

以上の結果より

\begin{align*}\frac{\partial V(x)}{\partial v(x,d)} = \frac{\partial}{\partial v(x,d)} \left[ \alpha + s\ \gamma \right] = \frac{\exp(\frac{v(x,d)}{s})}{\sum_{d} \exp(\frac{v(x,d)}{s})}\end{align*}

を得る。

 

別のところでextreme value distributionの最大統計量の分布導出とオイラー定数について書きます。