Publication:
Information-estimation relationships over binomial, negative binomial and Poisson models

Loading...
Thumbnail Image
Identifiers
Publication date
2014-09
Defense date
2014-09-15
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
This thesis presents several relationships between information theory and estimation theory over random transformations that are governed through probability mass functions of the type binomial, negative binomial and Poisson. The pioneer expressions that arose relating these fields date back to the 60's when Duncan proved that the input-output mutual information of a channel affected by Gaussian noise can be expressed as a time integral of the causal minimum mean square error. With the time, additional works due to Zakai1, Kadota, Mayer-Wolf, Lipster and Guo et al. -among others- suggested the fact that there could be a hidden structure relating concepts such as the mutual information with some estimation quantities over a wide range of scenarios. The most prominent work in this field states that, over a real-valued Gaussian channel, the derivative of the input-output mutual information with respect to the signal to noise ratio is proportional to the mean square error achieved when measuring the loss between the input X and its conditional mean estimate based on an observation on the output. The minimum value of the mean square error is achieved precisely by the conditional mean estimate of the input, which gives rise to the well known “I-MMSE" relationship. Similar expressions can be derived by studying the derivative of the relative entropy between two distributions obtained at the output of a Gaussian channel. The expressions proved for the Gaussian channel translate verbatim to the Poisson channel where the main difference lies in the loss function used to state the connection between information and estimation. In this framework, regarding the derivative of the input-output mutual information, it is further known that the considered loss function achieves its minimum value when is measured the difference between the input and its conditional mean estimate. This behavior has two main implications: in the context of the information-estimation relationships, it gives rise to the “I-MMLE" relationship over the Poisson model; second, it converts the loss function to a Bregman divergence, a property that is shared with the square distance used to state information-estimation relations in the Gaussian channel. Based on the previous results we explore similar relationships in the context of the binomial and negative binomial models. In each model, using a deterministic input preprocessing, we develop several information-estimation relationships, depending solely on input statistics and its respective conditional estimates, that in some scenarios are given through Bregman divergences as was done formerly for the Gaussian and Poisson models. Working over models whose mean is given by a linear scaling of the input X through a parameter θ, we show for the binomial and negative binomial models, that the derivative of the input-output mutual information is given through a Bregman divergence where the arguments are the mean of the model and its conditional estimate. This condition gives rise to relationships that are of the same kind as the “I-MMSE" and the “I-MMLE" found initially for the Gaussian and Poisson models. Similar expressions are developed for the relative entropy, where the arguments of the Bregman divergence are the conditional mean estimate of the model θX assuming that X ~ PX and its correspondent mismatched version when X ~ QX. Making the input scaling factor tends to zero, we show that the derivative of the input-output mutual information is proportional to the expectation of a Bregman divergence between the input X and its mean E[X]. This behavior is similar to that proved for the case of the Gaussian channel where, when the signal to noise ratio goes to zero, the derivative of the mutual information tends to the variance of the input. Furthermore, using an arbitrary input preprocessing function that is not necessarily linear, we prove that several scenarios lead to information-estimation expressions that are given through Bregman divergences even though this is not always the case. In those cases where the information-estimation relationship is given through the minimum of a Bregman divergence, an information-estimation relationship similar to the “I-MMSE" and “I-MLE" relationships can be stated. Finally, we provide conditions for which the results obtained for the binomial and negative binomial models converge asymptotically to information-estimation relationships over the Poisson model. This technique let us present connections between information and estimation over the Poisson model that cover wider scenarios than those studied so far.
En esta tesis se estudian diversas relaciones entre la teoría de la estimación y la teoría de la información sobre transformaciones aleatorias donde la relación entre la entrada y la salida está dada a través de distribuciones de probabilidad del tipo binomial, binomial negativo y Poisson. Las primeras expresiones encontradas que relacionan estos dos campos datan de la década de lo 60's cuando Duncan probó que la información mutua entre la entrada y la salida de un canal del tipo Gaussiano equivale a la integral en el tiempo del mínimo error cuadrático medio entre la entrada y su estimación condicionada a la observación de la salida. Estudios posteriores, hechos por Zakai4, Kadota, Mayer-Wolf y Lipster, -entre otros- sugirieron la existencia de relaciones más fuertes entre la teoría de la estimación y la teoría de la información que tenían validez sobre un amplio espectro de transformaciones aleatorias. A la fecha, el resultado más destacado concerniente a las relaciones entre estas dos teorías establece que, sobre un canal del tipo Gaussiano, la derivada de la información mutua con respecto a la relación señal a ruido es proporcional al error cuadrático medio obtenido entre la entrada y su correspondiente estimación a través de la media condicionada al valor de la salida. En este caso, una propiedad fundamental de la conexión entre estimación e información se basa en que el valor del error cuadrático medio es mínimo cuando la estimación de la entrada se hace a través de la media condicional, lo que da lugar a lo que es conocido en la literatura como la relación “I-MMSE". Expresiones similares entre información y estimación son obtenidas para el caso de la entropía relativa entre dos distribuciones obtenidas a la salida del canal Gaussiano, donde de nuevo, el nexo, estimación-información está dado a través del error cuadrático. En el contexto del canal del tipo Poisson -usado frecuentemente en el modelado de canales ópticos- las relaciones entre información y estimación encontradas hasta el momento tienen forma similar a las encontradas en el caso del canal Gaussiano donde la única diferencia radica en la función de pérdida utilizada. En otras palabras, mientras que en caso del canal Gaussiano la relación información-estimación está dada a través del error cuadrático, en el caso del canal Poisson, la relación está dada a través de la divergencia de Bregman que aparece en la representación exponencial de la distribución Poisson. Como consecuencia de esto, debido a las propiedades de las divergencias de Bregman se concluye que la función de pérdida es mínima cuando se utiliza para comparar la diferencia entre la entrada del canal Poisson y su estimación a través de la media condicional. Este comportamiento da lugar a lo que es conocido en el ámbito del canal Poisson a la relación “I-MMLE", de manera análoga a la relación “I-MMSE" en el caso del canal Gaussiano. Basados en los resultados anteriores en esta tesis son presentadas relaciones similares en el contexto de los modelos binomial y binomial negativo. En cada modelo, asumiendo un pre-procesado determinista de la entrada, son demostradas diversas relaciones entre información y estimación que están dadas en términos de estadísticos de la entrada y sus correspondientes estimas condicionales. En algunos casos, dichas relaciones son a través de divergencias de Bregman aunque ese no es siempre el caso. Cuando el pre-procesado de la entrada es lineal se muestra que para los modelos binomial y binomial negativo, la derivada de la información mutua está dada a través de divergencias de Bregman donde los argumentos de la función de pérdida son la media del modelo (que depende de la entrada) y su media condicional. Estas características dan lugar a relaciones de la misma naturaleza que las denominadas “I-MMSE" en el caso del canal Gaussiano y la “I-MMLE" en el caso del canal Poisson. Expresiones similares son obtenidas en el caso de la entropía relativa. Posteriormente, cuando el parámetro que afecta linealmente a la entrada se hace tender a cero, es demostrado que la derivada de la información mutua es proporcional al valor esperado de la divergencia de Bregman (usada para expresar la derivada de la información mutua en el modelo Poisson) entre la entrada y su media. Este comportamiento es similar al obtenido en el caso del canal Gaussiano donde el valor de la derivada de la información mutua cuando la relación señal a ruido tiende a cero está dado por el valor esperado de la distancia Euclídea entre la entrada y su media (varianza). Utilizando un pre-procesado arbitrario en la entrada que no es lineal necesariamente, es mostrado que diversos escenarios dan lugar a relaciones entre información y estimación a través de divergencias de Bregman. Cuando dichas divergencias de Bregman son minimizadas se puede establecer la existencia de una relación entre información y estimación del mismo tipo que las denominadas “I-MMSE" y “I-MMLE" estudiadas anteriormente. Para concluir, se presentan diversos escenarios en los modelos binomial y binomial negativo sobre los que las relaciones entre información y estimación encontradas convergen asintóticamente a las relaciones encontradas en el caso del modelo Poisson. Esta técnica permite la obtención de resultados, desconocidos hasta ahora para el modelo Poisson, a partir de los resultados obtenidos para los modelos binomial y binomial negativo.
Description
Mención Internacional en el título de doctor
Keywords
Information theory, Estimation theory, Random transformations, Binomial models, Negative binomial models, Poisson models
Bibliographic citation
Collections