Talk, Lose or Draw

posté le 07 March 2013 à 15:53

La semaine dernière, j'ai présenté pour la première fois mon travail de recherche à Columbia, durant le « theory lunch » du vendredi. En face des professeurs du groupe de théorie de l'université, de quelques postdocs et PhD, j'ai dû parler pendant une heure de cet article (écrit avec mon maître de thèse et une chercheuse de l'Université de Tel-Aviv ; je ne suis premier auteur que par le hasard de l'ordre alphabétique). Ou comment tester (efficacement) si une distribution de probabilité inconnue a une certaine propriété — e.g., « être uniforme » — ayant accès à des exemples tirés des distributions conditionnelles qu'elle induit.

La présentation s'est globalement bien déroulée — 0 morts, 0 tentatives de suicide, 0 personnes endormies, 0 fuites en hurlant ; l'audience a paru apprécier le sujet, ne pas m'en vouloir pour certaines des slides affreusement rébarbatives, et j'ai eu droit à des compliments (!).  Et à des questions ; la plupart, j'ai pu y répondre.

Demain, je remets ça, en terra incognita : je vais présenter au Graduate Center of the City University of New York (CUNY) — pas de jeux de mots, merci — ayant été invité à un séminaire « Algebra and Cryptography ». Ironiquement, aucun des deux n'a de relation, même de loin, avec le property testing ou l'apprentissage de distributions.


Rien à voir, par ailleurs :

Comic strip (in French)   (1)

Comic strip   (2)

Times flies (1)   (3)

Times flies (2)   (4)


Commentaires

carwin a dit :
posté le 08 March 2013 à 00:02
marche who cares !

LeChat a dit :
posté le 08 March 2013 à 09:19
GG §

Selune a dit :
posté le 08 March 2013 à 10:24
Je ne suis pas sûr d'avoir bien saisi ton sujet... C'est comment tester une distribution sans la connaitre, à partir de certains de ces dérivés ?

kaplan a dit :
posté le 08 March 2013 à 11:56
Mais exactement ce que je voulais dire !

Ceacy a dit :
posté le 08 March 2013 à 13:03
En gros, tu as juste accès à des échantillons (samples) de la distribution : imagine que tu conduises une enquête statistique, e.g. Insee, et que tu veuiles savoir si le revenu est uniforme dans la population (tu as N catégories de revenu: disons 1 pour "< 800€", 2 pour "ente 800 et 900€", ..., N pour ">100000€"). Tu vas dans la rue, et tu demandes à la première personne que tu croises : il te dit son revenu, c'est-à-dire une valeur i entre 1 et N. C'est un échantillon aléatoire tiré de la distribution "Revenu dans la population".
Comme aller dans la rue et demander aux gens est long et coûteux, tu veux faire ça un minimum de fois avant de donner ton diagnostic (uniforme ou vraiment pas uniforme).

Dans le modèle conditionnel, tu pourrais décider par exemple de ne demander qu'aux gens ayant un revenu entre 1 et 10 (les catégories les plus pauvres) en allant par exemple demander à la soupe populaire et pas dans la rue; ou aux plus riches (catégories entre N/2 et N) en allant effectuer ton sondage dans le 16e arrondissement (désolé pour les stéréotypes).


Un autre exemple serait de déterminer si la distribution de cancers est monotone (décroissante) ou non en fonction de la distance en km (de 1 à N) à Technobyl. Pour ça, tu peux soit mettons faire une enquête globale (e.g, en ligne, ou dans les hôpitaux nationaux -- chaque réponse que tu récupères est potentiellement longue et coûteuse à obtenir, et quand quelqu'un te dit qu'il a un cancer tu enregistres la distance i entre sa maison et Tchernobyl); ou bien tu vas dans une région particulière et tu fais ton enquête là, et du coup tu ne vas récupérer que des distances entre mettons 200 et 400 km (les autres n'allaient pas à cet hôpital/dans cette région, trop loin de chez eux).

C'est un peu plus clair ?

Gingembre a dit :
posté le 08 March 2013 à 13:29
Ceacy a écrit :
C'est un peu plus clair ?


Tout a fait
Mais même si c'est pour devenir plus populaire, je trouve abusé de donner gratuitement de la soupe aux riches de Tchernobyl, ils ont largement les moyens de s'en acheter.

Selune a dit :
posté le 08 March 2013 à 19:46
Ça a l'air d'être ce que j'avais compris, plus ou moins "extrapoler un tout (ou ses propriétés) à partir de l'une de ses partie"), c'est bien ça ?

Mais du coup deux questions :

1 - ton échantillon, tu le choisis aléatoirement, ou selon certaines caractéristiques ?

2 - Comment tu fais pour neutraliser les éventuelles biais statistiques induits sur ta projection par la taille limitée (e.g. non complète) de ton échantillon ?

Et puis tiens non, une 3e :

3 - est-ce que c'est quelque chose qui ressemble aux nouvelles méthodes statistiques de recensement de l'Insee, ou rien à voir ?

Ceacy a dit :
posté le 08 March 2013 à 23:30
En résumé, oui : tu fais un diagnostic global à partir de quelques observations locales. Dans un domaine complètement différent, il y a un théorème très puissant dans le même esprit, le PCP Theorem: n'importe quelle preuve mathématique peut être vérifiée (correctement dans 9/10 dans cas) en lisant seulement un nombre constant (e.g, 5) de lettres de la preuve choisies aléatoirement.

1 - Aléatoirement ; tu supposes que tu as accès à un "oracle" qui échantillonne exactement selon la distribution de probabilité "cachée" D.
2 - Les résultats sont toujours de la forme "si D a la propriété, l'algorithme renverra OUI avec probabilité au moins 2/3; si D est loin d'avoir cette propriété, l'algorithme renverra NON avec probabilité au moins 2/3" (tu peux remplacer 2/3 par 99/100 sans rien changer). Mais en gros, il ne donnera pas la bonne réponse tout le temps ; il y a toujours une probabilité non nulle qu'il se trompe (probabilité que tu peux rendre arbitrairement petite en répétant le test plusieurs (mais quand même un nombre "raisonnable" de) fois, et en prenant la réponse majoritaire).

3 - Là, tu me poses une colle :)

Selune a dit :
posté le 09 March 2013 à 17:22
Merci pour les éclaircissements !

Ceacy a dit :
posté le 03 September 2013 à 23:21
Si tu es toujours intéressé, j'ai traduit un article de vulgarisation qui traite de cela, écrit par Ronitt Rubinfeld (professeure au MIT, avec qui j'ai travaillé cet été) : "Dompter les Distributions de Probabilité Géantes".

Gingembre a dit :
posté le 04 September 2013 à 14:00
Ca parle de ma bite non?

Ceacy a dit :
posté le 04 September 2013 à 14:25
C'est vrai qu'elle a un tout petit support.

Selune a dit :
posté le 05 September 2013 à 11:13
Ceacy a écrit :
C'est vrai qu'elle a un tout petit support.


... Et vu l'uniformité du taux de cocus dans l'échantillon Ubisoft présent sur ce site, nous pouvons raisonnablement (avec une probabilité de 99,99999/100) dire que oui, Gingembre ne sait pas s'en servir... :-D

JiHeM a dit :
posté le 05 September 2013 à 11:45
Ceacy a écrit :

Dans le modèle conditionnel, tu pourrais décider par example...

Attènechione Ceacy, l'assimilation anglo-saxonne te guette !

Ceacy a dit :
posté le 05 September 2013 à 11:49
Heureusement, réécrire l'histoire est toujours possible. Hop, l'assimilation peut aller se rhabiller.

Ceacy a dit :
posté le 16 September 2013 à 12:53
Article accepté à SODA 2014 ! Fantastique :)

Poster un commentaire

Invité

Vous souhaitez commenter immédiatement ce billet. Vous ne pourrez pas l'éditer une fois envoyé.

Membre

Vous êtes membre ou souhaitez vous créer un compte sur l'asile.fr


L'accueil de l'asile.fr Les blogs sur l'asile.fr S'abonner au flux RSS des articles

Rechercher

Quelques mots ...

Lecteur, avant toute chose, je me dois de t'avertir du contenu de cet encart. Je ne vais pas m'y étendre sur ce que je suis ou ne suis pas. Non pas pour ne pas t'ennuyer, c'est le cadet de mes soucis pour le moment, et puis ça arrivera tôt ou tard ; mais pour ne pas trop en dévoiler. Ce blog est le mien, et en tant que tel m'est dédié de long en large : me dépeindre — ou tenter de le faire — en quelques mots serait, plus qu'une erreur, un mauvais calcul. Et je déteste faire de mauvais calculs, ça me frustre.

Articles importants