選択確率について2
Williams-Daly-Zachery theromについて書きます。
expected value functionをmean utilityで微分するとその選択肢の選択確率になるよっていうやつです。
Expected value functionはMcFadden's social surplus functionとも呼ばれます。確率項を$\epsilon$として、それについてvalue functionの期待値をとったものがexpected value functionです。これをstate (x)の関数として$V(x)$と書く。
これを使ってstate (x)とaction (d)を変数に持つaction specific value functionは以下のように書ける。ただし$f(x^{'}| x, d)$は現在のstateとactionによって確定する遷移確率とする。
$$v(x, d) = u(x, d) + \beta \int V(x^{'}) f(x^{'} | x, d) \mathrm{d} x^{'}$$
確率項についてadditive separabilityを仮定、つまりある選択肢から得る効用はその選択肢についてのdeterministicな項と確率項の和でかけるものとする。
この時、expected value functionは以下のように表現できる。ただし$g(\epsilon | x)$は確率項の分布とする。action spaceを$\left\{ 1,\dots, D\right\}$
$$V(x) = \int \dots \int \max_{d} \left\{ v(x, d) + \epsilon(d) \right\} g(\epsilon(1)\dots \epsilon(D) | x) \mathrm{d}\epsilon(1) \dots \mathrm{d}\epsilon(D)$$
$g(\epsilon | x)$をlocation parameterが0でscale parameterが$s$のextreme value distributionとする。ただし確率項は選択肢においてiidとする。
この時$v(x, d) + \epsilon(d)$はlocation parameterが$v(x, d)$でscale parameterが$s$のextreme value distributionである。この時、最大統計量の分布関数は以下のようである。
$$P(\max_{d} V(x, d) + \epsilon(d) \leq x) = \exp(-\exp(\frac{-(x - \alpha)}{s}))$$
ただし、$\alpha = s\ {\rm log} \sum_{d} \exp(\frac{v(x, d)}{s})$
要するに最大統計量はlocation parameterが$\alpha$のextreme value distributionである。
先のexpected value functionの定義式はこれを使ってextreme value distributionの期待値として以下のように書き換えられる。ただし$\gamma$はオイラー定数。
$$V(x) = \alpha + s \gamma$$
以上をもとにexpected value functionの微分を考える。
\begin{align*}\frac{\partial V(x)}{\partial v(x,d)} &= \int \dots \int \frac{\partial}{\partial v(x,d)}\max_{d^{'}}\left\{ v(x,d^{'})+\epsilon(d^{'})\right\} g(\epsilon(1)\ \dots \epsilon(D) | x) \mathrm{d}\epsilon(1)\dots \epsilon(D)\\[10pt] &= \int \dots \int \left\{ d=\delta(\epsilon(1),\dots,\epsilon(D)) \right\} g(\epsilon \dots \epsilon(D)|x) \mathrm{d}\epsilon(1) \dots \mathrm{d}\epsilon(D)\\[10pt] &= P(d | x)\end{align*}
最初の等式はbouded convergence theoremによる。$\delta(\epsilon(1),\dots, \epsilon(D))$は確率項の関数として選択する選択肢を示す関数である。
以上の結果より
\begin{align*}\frac{\partial V(x)}{\partial v(x,d)} = \frac{\partial}{\partial v(x,d)} \left[ \alpha + s\ \gamma \right] = \frac{\exp(\frac{v(x,d)}{s})}{\sum_{d} \exp(\frac{v(x,d)}{s})}\end{align*}
を得る。
別のところでextreme value distributionの最大統計量の分布導出とオイラー定数について書きます。