Dans le précédent billet, j’ai couvert la méthode du maximum de vraisemblance pour l’estimation des paramètres de l’apprentissage automatique et de modèles statistiques. Dans cet article, nous allons passer en revue une autre méthode d’estimation des paramètres utilisant l’inférence bayésienne., Je vais également montrer comment cette méthode peut être considérée comme une généralisation du maximum de vraisemblance et dans quel cas les deux méthodes sont équivalentes.
Certaines connaissances fondamentales de la théorie des probabilités sont supposées, par exemple la probabilité marginale et conditionnelle. Ces concepts sont expliqués dans mon premier article de cette série. De plus, il est également utile d’avoir des connaissances de base sur une distribution gaussienne, mais ce n’est pas nécessaire.
Théorème de Bayes
Avant d’introduire l’inférence bayésienne, il est nécessaire de comprendre le théorème de Bayes. Le théorème de Bayes est vraiment cool., Ce qui le rend utile, c’est qu’il nous permet d’utiliser certaines connaissances ou croyances que nous avons déjà (communément connu comme l’avant) pour nous aider à calculer la probabilité d’un tel événement. Par exemple, si nous voulons trouver la probabilité de vendre de la crème glacée par une journée chaude et ensoleillée, le théorème de Bayes nous donne les outils pour utiliser les connaissances préalables sur la probabilité de vendre de la crème glacée sur tout autre type de jour (pluvieux, venteux, neigeux, etc.). Nous en parlerons plus tard, alors ne vous inquiétez pas si vous ne le comprenez pas encore.,
définition Mathématique
Mathématiquement le théorème de Bayes est défini comme:
où A et B sont des événements, des P(A|B) est la probabilité conditionnelle de l’événement A se produit étant donné que l’événement B s’est déjà produit (P(B|A) a le même sens, mais avec les rôles de A et B inversé) et P(A) et P(B) sont les probabilités marginales de l’événement et l’événement B se produisant respectivement.,
Exemple
Les définitions mathématiques peuvent souvent sembler trop abstraites et effrayantes, alors essayons de comprendre cela avec un exemple. L’un des exemples que j’ai donnés dans le billet de blog d’introduction était de choisir une carte dans un paquet de cartes à jouer traditionnelles. Il y a 52 cartes dans le pack, 26 d’entre elles sont rouges et 26 sont noires. Quelle est la probabilité de la carte un 4 étant donné que nous savons que la carte est rouge?
Pour convertir ce les symboles mathématiques que nous voyons ci-dessus, nous pouvons dire que l’évènement A est l’événement que la carte tirée est un 4 et l’événement B est la carte rouge., Par conséquent, P(A|B) dans l’équation ci-dessus est P(4|rouge) dans notre exemple, et c’est ce que nous voulons calculer. Nous avons précédemment calculé que cette probabilité est égale à 1/13 (il y a 26 cartes rouges et 2 d’entre elles sont 4) mais calculons cela en utilisant le théorème de Bayes.
Nous devons trouver les probabilités pour les termes sur le côté droit. Ils sont:
- P(B|A) = P(rouge|4) = 1/2
- P(A) = P(4) = 4 contre 52 = 1/13
- P(B) = P(rouge) = 1/2
Lorsque l’on substitue ces nombres dans l’équation du théorème de Bayes ci-dessus nous obtenons 1/13, qui est la réponse que nous attendions.,
Comment le théorème de Bayes nous permet-il d’intégrer des croyances antérieures?
ci-Dessus, j’ai mentionné que le théorème de Bayes nous permet d’intégrer les croyances antérieures, mais il peut être difficile de voir comment il nous permet de faire cela simplement en regardant l’équation ci-dessus. Voyons donc comment nous pouvons le faire en utilisant l’exemple de la crème glacée et de la météo ci-dessus.
Laissez A représenter l’événement que nous vendons de la crème glacée et B être l’événement de la météo. Ensuite, nous pourrions nous demander quelle est la probabilité de vendre de la crème glacée un jour donné compte tenu du type de temps?, Mathématiquement, cela s’écrit comme P (A=vente de crème glacée | B = type de temps) qui est équivalent au côté gauche de l’équation.
P(A) sur le côté droit se trouve l’expression connue sous le nom de prior. Dans notre exemple, il s’agit de P(A = vente de crème glacée), c’est-à-dire la probabilité (marginale) de vendre de la crème glacée quel que soit le type de temps extérieur. P (A) est connu comme le prieur parce que nous pourrions déjà connaître la probabilité marginale de la vente de crème glacée. Par exemple, je pourrais regarder des données selon lesquelles 30 personnes sur un potentiel 100 ont réellement acheté de la crème glacée dans un magasin quelque part., Donc, mon P (A = vente de crème glacée) = 30/100 = 0.3, avant que je sache quoi que ce soit sur la météo. C’est ainsi que le théorème de Bayes nous permet d’incorporer des informations préalables.
Attention: J’ai mentionné ci-dessus que je pouvais trouver des données dans un magasin pour obtenir des informations préalables, mais rien ne m’empêche de créer un préalable complètement subjectif qui ne repose sur aucune donnée. Il est possible pour quelqu’un de trouver un préalable qui est une supposition éclairée à partir d’une expérience personnelle ou d’une connaissance particulière du domaine, mais il est important de savoir que le calcul résultant sera affecté par ce choix., Je vais entrer plus en détail sur la façon dont la force de la croyance antérieure affecte le résultat plus tard dans le post.
l’Inférence Bayésienne
Maintenant que nous savons ce que le théorème de Bayes est et comment l’utiliser, nous pouvons commencer à répondre à la question qu’est-ce que l’inférence Bayésienne?
Tout d’abord, l’inférence (statistique) est le processus de déduction des propriétés d’une population ou d’une distribution de probabilité à partir de données. Nous l’avons fait dans mon précédent post sur le maximum de vraisemblance. À partir d’un ensemble de points de données observés, nous avons déterminé l’estimation du maximum de vraisemblance de la moyenne.,
L’inférence bayésienne n’est donc que le processus de déduction des propriétés d’une population ou d’une distribution de probabilité à partir de données en utilisant le théorème de Bayes. C’est tout.
Utilisation du théorème de Bayes avec des distributions
Jusqu’à présent, les exemples que j’ai donnés ci-dessus utilisaient des nombres uniques pour chaque terme de l’équation du théorème de Bayes. Cela signifiait que les réponses que nous avons obtenues étaient également des numéros uniques. Cependant, il peut y avoir des moments où les numéros uniques ne sont pas appropriés.
Dans l’exemple de crème glacée ci-dessus, nous avons vu que la probabilité antérieure de vendre de la crème glacée était de 0,3. Cependant, que faire si 0.,3 était juste ma meilleure estimation, mais j’étais un peu incertain de cette valeur. La probabilité pourrait également être de 0,25 ou 0,4. Dans ce cas, une distribution de notre croyance antérieure pourrait être plus appropriée (voir figure ci-dessous). Cette distribution est connue sous le nom de distribution antérieure.
De la même manière, nous pouvons représenter les autres termes du théorème de Bayes en utilisant des distributions. Nous avons surtout besoin d’utiliser des distributions lorsque nous traitons des modèles.
Forme modèle du Théorème de Bayes
Dans la définition introductive du Théorème de Bayes ci-dessus, j’ai utilisé les événements A et B, mais lorsque la forme modèle du théorème de Bayes est énoncée dans la littérature, différents symboles sont souvent utilisés. Nous allons les présenter.
Au lieu de l’événement A, nous verrons généralement Θ, ce symbole est appelé Thêta., Thêta est ce qui nous intéresse, il représente l’ensemble des paramètres. Si nous essayons d’estimer les valeurs des paramètres d’une distribution Gaussienne alors Θ représente à la fois la moyenne m et l’écart-type, σ (écrit mathématiquement que Θ = {μ, σ}).
Au lieu de l’événement B, nous verrons data ou y = {y1, y2, …, yn}. Celles-ci représentent les données, c’est à dire l’ensemble des observations que nous avons. Je vais utiliser explicitement données dans l’équation pour espérer faire l’équation un peu moins énigmatique.,
Donc maintenant le théorème de Bayes dans le modèle de formulaire est écrit que:
Nous avons vu que P(Θ) est l’état de la distribution. Il représente nos croyances sur la valeur réelle des paramètres, tout comme nous avions des distributions représentant notre croyance sur la probabilité de vendre de la crème glacée.
P(Θ / data) sur le côté gauche est connu comme la distribution postérieure., Il s’agit de la distribution représentant notre croyance sur les valeurs des paramètres après avoir tout calculé sur le côté droit en tenant compte des données observées.
P(données| Θ) est quelque chose que nous avons rencontré avant. Si vous êtes arrivé à la fin de mon précédent post sur le maximum de vraisemblance, vous vous souviendrez que nous avons dit que L(data; μ, σ) est la distribution de vraisemblance (pour une distribution gaussienne). Eh bien P (data / Θ) est exactement cela, c’est la distribution de probabilité déguisée. Parfois, il est écrit comme ℒ (Θ; data) mais c’est la même chose ici.,
Par conséquent, nous pouvons calculer la distribution postérieure de nos paramètres en utilisant nos croyances antérieures mises à jour avec notre probabilité.
Cela nous donne suffisamment d’informations pour passer par un exemple d’inférence de paramètres en utilisant l’inférence bayésienne. Mais d’abord
Pourquoi ai-je complètement ignoré P(data)?
Eh bien, en plus d’être la distribution marginale des données, il n’a pas vraiment de nom fantaisiste, bien qu’il soit parfois appelé la preuve. Rappelez-vous, nous ne sommes intéressés que par les valeurs des paramètres mais P(data) n’a aucune référence à elles., En fait, P (data) n’évalue même pas une distribution. C’est juste un nombre. nous avons déjà observé les données afin de pouvoir calculer P (données). En général, il s’avère que le calcul de P (données) est très difficile et de nombreuses méthodes existent pour le calculer. Cet article de blog de Prasoon Goyal explique plusieurs méthodes pour le faire.
La raison pour laquelle P(data) est important est que le nombre qui sort est une constante de normalisation. L’une des conditions nécessaires pour une distribution de probabilité est la somme de tous les résultats possibles d’un événement est égale à 1 (par ex., la probabilité totale de lancer un 1, 2, 3, 4, 5 ou 6 sur un dé à 6 côtés est égale à 1). La constante de normalisation s’assure que la distribution postérieure résultante est une vraie distribution de probabilité en s’assurant que la somme de la distribution (je devrais vraiment dire intégrale car c’est généralement une distribution continue mais c’est juste trop pédant en ce moment) est égale à 1.
Dans certains cas, nous ne nous soucions pas cette propriété de la distribution. Nous ne nous soucions que de l’endroit où se produit le pic de la distribution, que la distribution soit normalisée ou non., Dans ce cas, beaucoup de gens à écrire le modèle sous forme de théorème de Bayes comme
où ∝ signifie « proportionnelle”. Cela rend explicite que la vraie distribution postérieure n’est pas égale au côté droit parce que nous n’avons pas pris en compte la constante de normalisation P(données).
Exemple d’inférence bayésienne
Bravo d’être allé aussi loin. Vous aurez peut-être besoin d’une pause après toute cette théorie., Mais poursuivons avec un exemple où l’inférence pourrait être utile. L’exemple que nous allons utiliser est de déterminer la longueur d’une liaison hydrogène. Vous n’avez pas besoin de savoir ce qu’est une liaison hydrogène. Je ne l’utilise qu’à titre d’exemple parce que c’est celui que j’ai trouvé pour aider un ami pendant mon doctorat (nous étions dans le département de biochimie, c’est pourquoi c’était pertinent à l’époque).,
Supposons qu’une liaison hydrogène est comprise entre 3,2 Å — 4.,0Å (Une vérification rapide sur Google m’a donné cette information. L’Ångström, Å, est une unité de distance où 1Å est égal à 0,1 nanomètres, donc nous parlons de très petites distances). Cette information formera mon prieur. En termes de distribution de probabilité, je reformulerai cela comme une distribution gaussienne avec une moyenne μ = 3,6 Å et un écart type σ = 0,2 Å (voir la figure ci-dessous).
On nous présente maintenant quelques données (5 points de données générés aléatoirement à partir d’une distribution gaussienne de la moyenne 3Å et de l’écart type 0.4 Å pour être exact. Dans des situations réelles, ces données proviendront du résultat d’une expérience scientifique) qui donne des longueurs mesurées de liaisons hydrogène (points d’or sur la figure 3). Nous pouvons dériver une distribution de vraisemblance à partir des données comme nous l’avons fait dans le post précédent sur le maximum de vraisemblance., En supposant que les données ont été générées à partir d’un processus qui peut être décrit par une distribution gaussienne, nous obtenons une distribution de vraisemblance représentée par la courbe d’or dans la figure ci-dessous. Notez que le maximum de vraisemblance estimation de la moyenne de l’5 points de données est inférieur à 3 (environ 2,8 Å)
Nous avons maintenant 2 distributions gaussiennes, le bleu représentant le précédent et l’or représentant la probabilité. Nous ne nous soucions pas de la constante de normalisation, nous avons donc tout ce dont nous avons besoin pour calculer la distribution postérieure non normalisée. Rappelons que l’équation qui représente la densité de probabilité d’une Gaussienne est
nous avons Donc à multiplier 2 de ces., Je ne vais pas passer par les mathématiques ici parce que ça devient très désordonné. Si vous êtes intéressé par les mathématiques, vous pouvez le voir effectué dans les 2 premières pages de ce document. La distribution postérieure résultante est représentée en rose sur la figure ci-dessous.
Maintenant, nous avons la distribution postérieure pour la longueur d’une liaison hydrogène, nous pouvons en déduire des statistiques. Par exemple, nous pourrions utiliser la valeur attendue de la distribution d’estimer la distance. Ou nous pourrions calculer la variance pour quantifier notre incertitude quant à notre conclusion. L’une des statistiques les plus courantes calculées à partir de la distribution postérieure est le mode. Ceci est souvent utilisé comme l’estimation de la valeur réelle pour le paramètre d’intérêt et est connu comme l’estimation de probabilité maximale a posteriori ou simplement, l’estimation de la CARTE., Dans ce cas, la distribution postérieure est également une distribution gaussienne, donc la moyenne est égale au mode (et à la médiane) et l’estimation cartographique de la distance d’une liaison hydrogène est au sommet de la distribution à environ 3,2 Å.
Pourquoi utilise-t-on toujours des Gaussiens?
Vous remarquerez que dans tous mes exemples impliquant des distributions, j’utilise des distributions gaussiennes. L’une des principales raisons est qu’il rend les mathématiques beaucoup plus facile. Mais pour l’exemple d’inférence bayésienne, il a fallu calculer le produit de 2 distributions. J’ai dit que c’était désordonné et donc je n’ai pas passé les maths., Mais même sans faire les calculs moi-même, je savais que le postérieur était une distribution gaussienne. En effet, la distribution gaussienne a une propriété particulière qui la rend facile à utiliser. Il est conjugué à lui – même par rapport à une fonction de vraisemblance gaussienne. Cela signifie que si je multiplie une distribution antérieure gaussienne avec une fonction de probabilité gaussienne, j’obtiendrai une fonction postérieure gaussienne. Le fait que le postérieur et le antérieur soient tous deux de la même famille de distribution (ils sont tous deux Gaussiens) signifie qu’ils sont appelés distributions conjuguées., Dans ce cas, la distribution prior est connue sous le nom de prior conjugué.
Dans de nombreuses situations d’inférence, les probabilités et les prieurs sont choisis de telle sorte que les distributions résultantes soient conjuguées, car cela facilite les calculs. Un exemple en science des données est Latent Dirichlet Allocation (LDA) qui est un algorithme d’apprentissage non supervisé pour trouver des sujets dans plusieurs documents texte (appelé corpus). Une très bonne introduction à LDA se trouve ici dans le blog d’Edwin Chen.,
Dans certains cas, nous ne pouvons pas simplement choisir le prior ou la vraisemblance de manière à faciliter le calcul de la distribution postérieure. Parfois, la probabilité et / ou la distribution antérieure peuvent sembler horribles et calculer le postérieur à la main n’est ni facile ni possible. Dans ces cas, nous pouvons utiliser différentes méthodes pour calculer la distribution postérieure. L’un des moyens les plus courants consiste à utiliser une technique appelée méthodes de Monte-Carlo par chaîne de Markov., Ben Shaver a écrit un article brillant intitulé A Zero-Math Introduction to Markov Chain Monte Carlo Methods qui explique cette technique de manière très accessible.
Que se passe-t-il lorsque nous obtenons de nouvelles données?
l’Une des grandes choses au sujet de l’inférence Bayésienne est que vous n’avez pas besoin de beaucoup de données à utiliser. 1 observation suffit pour mettre à jour le précédent. En fait, le cadre Bayésien permet de mettre à jour vos croyances de manière itérative, en temps réel données. Cela fonctionne comme suit: vous avez une croyance préalable à propos de quelque chose (par exemple la valeur d’un paramètre), puis vous recevez des données., Vous pouvez mettre à jour vos croyances en calculant la distribution postérieure comme nous l’avons fait ci-dessus. Ensuite, nous obtenons encore plus de données. Notre postérieur devient donc le nouveau prieur. Nous pouvons mettre à jour le nouveau précédent avec la probabilité dérivée des nouvelles données et nous obtenons à nouveau un nouveau postérieur. Ce cycle peut continuer indéfiniment afin que vous mettiez continuellement à jour vos croyances.
Le filtre de Kalman (et ses variantes) en est un excellent exemple. Il est utilisé dans de nombreux scénarios, mais peut-être le profil le plus élevé dans la science des données sont ses applications aux voitures autonomes., J’ai utilisé une variante appelée le filtre de Kalman non parfumé pendant mon doctorat en cristallographie mathématique des protéines, et j’ai contribué à un package open source les implémentant. Pour une bonne description visuelle des filtres Kalman consultez cet article de blog: Comment fonctionne un filtre Kalman, en images par Tim Babb.
Utilisation de priors comme régularisateurs
Les données que nous avons générées dans l’exemple de longueur de liaison hydrogène ci-dessus suggèrent que 2,8 Å était la meilleure estimation. Cependant, nous pouvons être à risque de surajustement si nous avons basé notre estimation uniquement sur les données., Ce serait un énorme problème si quelque chose n’allait pas avec le processus de collecte de données. Nous pouvons combattre cela dans le cadre bayésien en utilisant des prieurs. Dans notre exemple, l’utilisation d’un pri gaussien centré sur 3,6 Å a abouti à une distribution postérieure qui a donné une estimation cartographique de la longueur de la liaison hydrogène à 3,2 Å. Cela démontre que notre prior peut agir comme un régularisateur lors de l’estimation des valeurs des paramètres.
La quantité de poids que nous mettons sur notre probabilité antérieure dépend de l’incertitude relative entre les deux distributions. Dans la figure ci-dessous, nous pouvons voir graphiquement., Les couleurs sont les mêmes que ci-dessus, le bleu représente la distribution antérieure, l’or la probabilité et le rose le postérieur. Dans le graphique de gauche de la figure, vous pouvez voir que notre précédent (bleu) est beaucoup moins étalé que la probabilité (or). Par conséquent, le postérieur ressemble beaucoup plus au précédent que la probabilité. Le contraire est vrai dans le graphique de droite.,
Par conséquent, si nous voulons augmenter la régularisation d’un paramètre que l’on peut choisir pour affiner l’état de la distribution par rapport à la probabilité.
Michael Green a écrit un article intitulé The truth about Bayesian priors and overfitting qui couvre cela plus en détail et donne des conseils sur la façon de définir les prieurs.
Quand l’estimation de la CARTE est-elle égale à l’estimation du maximum de vraisemblance?,
L’estimation cartographique est égale au MLE lorsque la distribution antérieure est uniforme. Un exemple de distribution uniforme est présenté ci-dessous.
Ce que nous pouvons voir, c’est que la distribution uniforme attribue un poids égal à toutes les valeurs sur l’axe des x (c’est une ligne horizontale). Intuitivement, cela représente un manque de connaissances préalables sur les valeurs les plus probables., Dans ce cas, tout le poids est affecté à la fonction de vraisemblance, donc lorsque nous multiplions le précédent par la vraisemblance, le postérieur résultant ressemble exactement à la vraisemblance. Par conséquent, la méthode du maximum de vraisemblance peut être considérée comme un cas particulier de MAP.