Probability concepts explained: Bayesian inference for parameter estimation.

No post anterior eu abordei o de máxima verossimilhança, método para estimativa de parâmetros em máquina de aprendizagem e modelos estatísticos. Neste post vamos rever outro método de estimativa de parâmetros usando Inferência Bayesiana., Vou também mostrar como este método pode ser visto como uma generalização da máxima probabilidade e em que caso os dois métodos são equivalentes.

algum conhecimento fundamental da teoria da probabilidade é assumido, por exemplo, probabilidade marginal e condicional. Estes conceitos são explicados em meu primeiro post nesta série. Além disso, também ajuda ter algum conhecimento básico de uma distribuição gaussiana, mas não é necessário.

Teorema de Bayes

Antes de introduzir a inferência bayesiana, é necessário entender o teorema de Bayes. O teorema de Bayes é muito fixe., O que torna útil é que nos permite usar algum conhecimento ou crença que já temos (comumente conhecido como o prior) para nos ajudar a calcular a probabilidade de um evento relacionado. Por exemplo, se queremos encontrar a probabilidade de vender sorvete em um dia quente e ensolarado, o teorema de Bayes nos dá as ferramentas para usar o conhecimento prévio sobre a probabilidade de vender sorvete em qualquer outro tipo de dia (chuvoso, ventoso, nevado, etc.). Falaremos mais sobre isto mais tarde, por isso não te preocupes se ainda não percebeste.,

definição Matemática

Matematicamente Bayes’ teorema é definido como:

a, onde A e B são eventos, P(A|B) é a probabilidade condicional de que Um evento ocorre, dado que o evento B já ocorreu (P(B|A) tem o mesmo significado, mas com as funções de A e B invertido) e P(A) e P(B) são as probabilidades marginais de evento A e o evento B ocorrem, respectivamente.,

exemplo

definições matemáticas podem muitas vezes parecer muito abstratas e assustadores então vamos tentar entender isso com um exemplo. Um dos exemplos que eu dei no post introdutório do blog foi sobre escolher uma carta de um pacote de cartas de jogo tradicionais. Há 52 cartas no pacote, 26 delas são vermelhas e 26 são pretas. Qual é a probabilidade do cartão ser um 4 dado que sabemos que o cartão é vermelho?

para converter isso nos Símbolos matemáticos que vemos acima podemos dizer que o evento A é o evento que a carta escolhida é um 4 e o evento B é o cartão sendo vermelho., Assim, P(A|B) na equação acima é P (4|vermelho) em nosso exemplo, e isso é o que queremos calcular. Nós previamente trabalhamos para fora que esta probabilidade é igual a 1/13 (há 26 cartas vermelhas e 2 daquelas são 4’s) mas vamos calcular isto usando o teorema de Bayes.

precisamos encontrar as probabilidades para os Termos do lado direito. São eles:

P(B|A) = P(vermelho|4) = 1/2
P(A) = P(4) = 4/52 = 1/13
P(B) = P(vermelho) = 1/2

Quando substituímos esses números na equação de Bayes’ teorema acima temos 1/13, qual é a resposta que estávamos esperando.,

como o teorema de Bayes nos permite incorporar crenças anteriores?

acima mencionei que o teorema de Bayes nos permite incorporar crenças anteriores, mas pode ser difícil ver como ele nos permite fazer isso apenas olhando para a equação acima. Então vamos ver como podemos fazer isso usando o sorvete e o exemplo climático acima.deixe a representar o evento que vendemos sorvete e B ser o evento do tempo. Então podemos perguntar Qual é a probabilidade de vender sorvete em qualquer dia dado o tipo de tempo?, Matematicamente, isto é escrito como P(A=sorvete venda | B = tipo de tempo) que é equivalente ao lado esquerdo da equação.

P(A) do lado direito é a expressão conhecida como prior. No nosso exemplo isto é P (a = venda de sorvete), ou seja, a probabilidade (marginal) de vender sorvete independentemente do tipo de tempo fora. P(A) é conhecido como o prior Porque já podemos saber a probabilidade marginal da venda de sorvete. Por exemplo, eu poderia olhar para dados que diziam que 30 pessoas de um potencial 100 realmente compraram sorvete em alguma loja em algum lugar., Então meu p (a = venda de sorvete) = 30/100 = 0,3, antes de eu saber qualquer coisa sobre o tempo. É assim que o teorema de Bayes nos permite incorporar informação prévia.atenção: mencionei acima que eu poderia encontrar dados de uma loja para obter informações prévias, mas não há nada que me impeça de inventar um prior completamente subjetivo que não é baseado em quaisquer dados. É possível para alguém chegar com um prior que é um palpite informado a partir da experiência pessoal ou conhecimento de domínio particular, mas é importante saber que o cálculo resultante será afetado por esta escolha., Vou entrar em mais detalhes sobre como a força da crença anterior afeta o resultado mais tarde no post.

Inferência Bayesiana

Now we know what Bayes ‘ theorem is and how to use it, we can start to answer the question what is Bayesian inference?

primeiramente, inferência (estatística) é o processo de deduzir propriedades sobre uma população ou distribuição de probabilidade a partir de dados. Fizemos isso no meu post anterior sobre a máxima probabilidade. A partir de um conjunto de pontos de dados observados, determinamos a estimativa máxima de probabilidade da média.,

Inferência Bayesiana é, portanto, apenas o processo de deduzir propriedades sobre uma população ou distribuição de probabilidade a partir de dados usando o teorema de Bayes. É isso.

Using Bayes ‘theorem with distributions

Until now the examples that i’ve given above have used single numbers for each term in the Bayes’ theorem equation. Isto significava que as respostas que obtivemos também eram números únicos. No entanto, pode haver alturas em que os números únicos não são adequados.no exemplo de sorvete acima vimos que a probabilidade anterior de vender sorvete era de 0,3. No entanto, e se 0.,3 foi apenas o meu melhor palpite, mas eu estava um pouco incerto sobre este valor. A probabilidade também pode ser 0.25 ou 0.4. Neste caso, uma distribuição da nossa crença anterior pode ser mais apropriada (ver figura abaixo). Esta distribuição é conhecida como a distribuição prévia.

2 distribuições que representam a nossa autorização prévia probabilidade de venda de gelo em um determinado dia. O valor máximo das curvas azul e dourada ocorre em torno do valor de 0.,3 que, como dissemos acima, é o nosso melhor palpite da nossa probabilidade anterior de vender gelado. O fato de que f (x) não é zero de outros valores de x mostra que não estamos completamente certos de que 0,3 é o verdadeiro valor da venda de sorvete. A curva azul mostra que é provável que esteja em qualquer lugar entre 0 e 0,5, enquanto a curva de ouro mostra que é provável que esteja em qualquer lugar entre 0 e 1. O fato de que a curva de ouro é mais espalhada e tem um pico menor do que a curva azul significa que uma probabilidade anterior expressa pela curva de ouro é “menos certa” sobre o valor verdadeiro do que a curva azul.,

de uma maneira similar podemos representar os outros termos no teorema de Bayes usando distribuições. Precisamos usar distribuições quando estamos lidando com modelos.

Modelo de formulário de Bayes’ Teorema

Na introdução definição de Bayes’ Teorema acima eu usei eventos A e B, mas quando o modelo de formulário de Bayes’ teorema é apontado na literatura diferentes símbolos são utilizados com freqüência. Vamos apresentá-los.

em vez do evento A, Normalmente veremos Θ, este símbolo é chamado Theta., Theta é o que nos interessa, representa o conjunto de parâmetros. Então, se estamos tentando estimar os valores dos parâmetros de uma distribuição gaussiana então Θ representa tanto a média, μ quanto o desvio padrão, σ (escrito matematicamente Como Θ = {μ, σ}).

em vez do evento B, veremos data ou y = {y1, y2,…, yn}. Estes representam os dados, isto é, o conjunto de observações que temos. Vou usar explicitamente dados na equação para tornar a equação um pouco menos enigmática.,

Então, agora Bayes’ teorema no modelo de formulário é escrito como:

Nós vimos que P(Θ) é a distribuição anterior. Ela representa nossas crenças sobre o verdadeiro valor dos parâmetros, assim como nós tínhamos distribuições representando nossa crença sobre a probabilidade de vender sorvete.

P(Θ / dados) do lado esquerdo é conhecida como distribuição posterior., Esta é a distribuição que representa a nossa crença sobre os valores dos parâmetros depois de termos calculado tudo do lado direito levando em conta os dados observados.

P(data / Θ) é algo que já vimos antes. Se você chegou ao fim do meu post anterior sobre a máxima probabilidade, então você vai se lembrar que dissemos L(Dados; μ, σ) é a distribuição de probabilidade (para uma distribuição gaussiana). Bem P (data / Θ) é exatamente isso, é a distribuição de probabilidade disfarçada. Às vezes é escrito como ℒ(Θ; dados), mas é a mesma coisa aqui.,portanto, podemos calcular a distribuição posterior dos nossos parâmetros usando as nossas crenças anteriores atualizadas com a nossa probabilidade.

isso nos dá informações suficientes para passar por um exemplo de inferência de parâmetro usando Inferência Bayesiana. Mas primeiro … porque é que ignorei completamente P(dados)?

bem, além de ser a distribuição marginal dos dados, ele realmente não tem um nome extravagante, embora às vezes é referido como a evidência. Lembre-se, só estamos interessados nos valores dos parâmetros, mas P(dados) não tem nenhuma referência a eles., Na verdade, p (dados) nem sequer avalia a uma distribuição. É só um número. já observamos os dados para que possamos calcular P(dados). Em geral, acontece que calcular p(dados) é muito difícil e existem tantos métodos para calculá-lo. Este post de Prasoon Goyal explica vários métodos de fazê-lo.

A razão pela qual P(dados) é importante é porque o número que sai é uma constante normalizante. Uma das condições necessárias para uma distribuição de probabilidade é que a soma de todos os resultados possíveis de um evento é igual a 1 (e.g., a probabilidade total de rolar um dado de 1, 2, 3, 4, 5 ou 6 num dado de 6 lados é igual a 1). A constante normalizante garante que a distribuição posterior resultante é uma distribuição de probabilidade verdadeira, garantindo que a soma da distribuição (eu realmente deveria dizer integral, porque é geralmente uma distribuição contínua, mas que é apenas ser muito pedante agora) é igual a 1.

em alguns casos não nos importamos com esta propriedade da distribuição. Só nos interessa onde ocorre o pico da distribuição, independentemente de a distribuição estar normalizada ou não., Neste caso, muitas pessoas escrevem o modelo de formulário de Bayes teorema de como

onde ∝ significa “proporcional”. Isto torna explícito que a verdadeira distribuição posterior não é igual ao lado direito porque não contabilizamos a constante de normalização P(dados).

exemplo de Inferência Bayesiana

bem feito para chegar até aqui. Talvez precises de uma pausa depois de toda essa teoria., Mas vamos continuar com um exemplo onde a inferência pode ser útil. O exemplo que vamos usar é trabalhar o comprimento de uma ligação de hidrogênio. Não precisas de saber o que é uma ligação de hidrogénio. Eu só estou usando isso como um exemplo, porque foi um que eu vim com para ajudar um amigo durante o meu PhD (estávamos no departamento de bioquímica, que é por isso que era relevante na época).,

eu já incluído esta imagem porque eu acho que ele parece bom, ajuda a quebrar o denso texto, e é o tipo de relacionados para o exemplo que estamos indo ir através. Não se preocupe, você não precisa entender a figura para entender o que estamos prestes a passar em Inferência Bayesiana. Caso estejas a pensar, eu fiz a figura com o Inkscape.

vamos assumir que uma ligação de hidrogênio está entre 3.2 Å — 4.,0Å (uma verificação rápida no Google deu – me esta informação. O Ångström, Å, é uma unidade de distância onde 1Å é igual a 0,1 nanômetros, então estamos falando de distâncias muito pequenas). Esta informação formará o meu prior. Em termos de uma distribuição de probabilidade, vou reformular isto como uma distribuição gaussiana com Média μ = 3.6 Å e desvio padrão σ = 0.2 Å (ver figura abaixo).

Nosso antes de probabilidade para o comprimento de uma ligação de hidrogênio., Isto é representado por uma distribuição gaussiana com Média μ = 3,6 Å e desvio padrão σ = 0,2 Å.

Now we’re presented with some data (5 data points generated randomly from a Gaussian distribution of mean 3Å and standard deviation 0,4 Å to be exact. Em situações do mundo real estes dados virão do resultado de um experimento científico) que dá comprimentos medidos de ligações de hidrogênio (pontos de ouro na Figura 3). Podemos derivar uma distribuição de probabilidade a partir dos dados, tal como fizemos no post anterior sobre a máxima probabilidade., Assumindo que os dados foram gerados a partir de um processo que pode ser descrito por uma distribuição gaussiana, obtemos uma distribuição de probabilidade representada pela curva de ouro na figura abaixo. Observe que a estimativa de máxima verossimilhança da média de 5 pontos de dados, a menos de 3 (cerca de 2,8 Å)

Antes de probabilidade para a distância de uma ligação de hidrogênio em azul e a probabilidade de distribuição em ouro derivada a partir de 5 de ouro de pontos de dados.,

Agora temos 2 distribuições Gaussianas, azul representando o prior e ouro representando a probabilidade. Não nos importamos com a constante normalizadora, então temos tudo o que precisamos para calcular a distribuição posterior não formalizada. Lembrar que a equação que representa a densidade de probabilidade para uma Gaussiana é

Assim, temos que multiplicar 2 destes., Não vou passar pelas contas aqui porque fica muito confuso. Se você está interessado na matemática, então você pode vê-lo realizado nas primeiras 2 páginas deste documento. A distribuição posterior resultante é mostrada em rosa na figura abaixo.

A posterior distribuição em cor-de-rosa gerado pela multiplicação do azul e ouro distribuições.,

Agora temos a distribuição posterior para o comprimento de uma ligação de hidrogênio que podemos derivar estatísticas a partir dela. Por exemplo, poderíamos usar o valor esperado da distribuição para estimar a distância. Ou podemos calcular a variação para quantificar a nossa incerteza sobre a nossa conclusão. Uma das estatísticas mais comuns calculadas a partir da distribuição posterior é o modo. Isto é muitas vezes usado como a estimativa do valor verdadeiro para o parâmetro de interesse e é conhecido como a estimativa de probabilidade máxima a posteriori ou simplesmente, a estimativa do mapa., Neste caso, a distribuição posterior é também uma distribuição gaussiana, de modo que a média é igual ao modo (e a mediana) e a estimativa do mapa para a distância de uma ligação de hidrogênio está no pico da distribuição em cerca de 3.2 Å.porque estou sempre a usar Gaussianos?

você vai notar que em todos os meus exemplos que envolvem distribuições eu uso distribuições Gaussianas. Uma das principais razões é que torna a matemática muito mais fácil. Mas para o exemplo de Inferência Bayesiana era necessário calcular o produto de 2 distribuições. Eu disse que isto era uma confusão e não passei pelas contas., Mas mesmo sem fazer as contas eu mesmo, eu sabia que o posterior era uma distribuição gaussiana. Isto porque a distribuição gaussiana tem uma propriedade particular que torna fácil trabalhar com ela. É conjugada a si mesma com respeito a uma função de probabilidade Gaussiana. Isso significa que se eu multiplicar uma distribuição anterior Gaussiana com uma função de probabilidade Gaussiana, eu vou ter uma função posterior Gaussiana. O fato de que o posterior e o prior são ambos da mesma família de distribuição (ambos Gaussianos) significa que eles são chamados de distribuições conjugadas., Neste caso, a distribuição prévia é conhecida como um conjugado prior.

em muitas situações de inferência, likelihoods e priores são escolhidos de tal forma que as distribuições resultantes são conjugadas porque torna a matemática mais fácil. Um exemplo na ciência dos dados é a alocação latente de Dirichlet (LDA), que é um algoritmo de aprendizagem não supervisionado para encontrar tópicos em vários documentos de texto (referido como um corpus). Uma boa introdução ao LDA pode ser encontrada aqui no blog de Edwin Chen.,

em alguns casos, não podemos simplesmente escolher o prior ou a probabilidade de tal forma que seja fácil calcular a distribuição posterior. Às vezes, a probabilidade e/ou a distribuição prévia pode parecer horrenda e calcular o posterior à mão não é fácil ou possível. Nestes casos podemos usar diferentes métodos para calcular a distribuição posterior. Uma das maneiras mais comuns é usando uma técnica chamada método de Monte Carlo cadeia Markov., Ben Shaver escreveu um artigo brilhante chamado Uma Introdução Matemática Zero aos métodos de Monte Carlo da cadeia Markov que explica esta técnica de uma maneira muito acessível.o que acontece quando recebemos novos dados?

uma das grandes coisas sobre Inferência Bayesiana é que você não precisa de muitos dados para usá-lo. 1 observação é suficiente para atualizar o prior. De facto, o quadro Bayesiano permite-lhe actualizar as suas crenças interativamente em tempo real à medida que os dados chegam. Funciona da seguinte forma: você tem uma crença prévia sobre algo (por exemplo, o valor de um parâmetro) e então você recebe alguns dados., Você pode atualizar suas crenças calculando a distribuição posterior como fizemos acima. Depois, recebemos ainda mais dados. Então o nosso posterior torna-se o novo prior. Podemos atualizar o novo prior com a probabilidade derivada dos novos dados e novamente temos um novo posterior. Este ciclo pode continuar indefinidamente para que você esteja continuamente atualizando suas crenças.

O filtro de Kalman (e suas variantes) é um grande exemplo disso. É usado em muitos cenários, mas possivelmente o mais alto perfil na ciência de dados são suas aplicações para auto condução carros., Eu usei uma variante chamada Filtro Kalman não desgastado durante o meu doutorado em cristalografia de proteínas matemáticas, e contribuí para um pacote de código aberto implementando-os. Para uma boa descrição visual dos filtros Kalman, confira este post: como um filtro Kalman funciona, em imagens de Tim Babb.

usando priores como regularizadores

os dados que nós geramos no exemplo de comprimento da ligação de hidrogênio acima sugerem que 2,8 Å foi a melhor estimativa. No entanto, podemos estar em risco de sobrecarga se basearmos a nossa estimativa apenas nos dados., Isso seria um grande problema se algo estivesse errado com o processo de coleta de dados. Podemos combatê-lo no quadro Bayesiano usando antecedentes. Em nosso exemplo, usando um prior Gaussiano centrado em 3.6 Å resultou em uma distribuição posterior que deu uma estimativa do comprimento da ligação de hidrogênio como 3.2 Å. Isto demonstra que o nosso prior pode agir como regularizador ao estimar os valores dos parâmetros.

a quantidade de peso que colocamos em nosso prior vs nossa probabilidade depende da incerteza relativa entre as duas distribuições. Na figura abaixo podemos ver isso graficamente., As cores são as mesmas que acima, azul representa a distribuição anterior, dourado a probabilidade e rosa a posterior. No gráfico da esquerda na figura você pode ver que nosso prior (azul) está muito menos espalhado do que a probabilidade (ouro). Portanto, o posterior assemelha-se ao prior muito mais que a probabilidade. O oposto é verdadeiro no gráfico à direita.,

Portanto, se desejamos aumentar a regularização de um parâmetro que pode escolher para restringir a distribuição prévia em relação à probabilidade.

Michael Green escreveu um artigo chamado a verdade sobre os priores Bayesianos e sobrefitting que cobre isso em mais detalhes e dá conselhos sobre como definir priores.

quando é que a estimativa do mapa é igual à estimativa da probabilidade máxima?,

a estimativa do mapa é igual ao MLE quando a distribuição anterior é uniforme. Um exemplo de uma distribuição uniforme é mostrado abaixo.

O que podemos ver é que a distribuição uniforme atribui o mesmo peso a cada valor no eixo x (é uma linha horizontal). Intuitivamente representa a falta de qualquer conhecimento prévio sobre quais valores são mais prováveis., Neste caso, todo o peso é atribuído à função de probabilidade, então quando multiplicamos o prior pela probabilidade o posterior resultante assemelha-se exatamente à probabilidade. Portanto, o método de máxima probabilidade pode ser visto como um caso especial de mapa.