Weekly outline

  • Contenu:

    0. Rappel
    1. Intervalles de confiance pour probabilités
    2. La vraisemblance
    3. La régression multiple
    4. L'analyse de variance (ANOVA) à une voie
    5. L'analyse de variance à deux voies
    6. Les plans d'expériences complexes
    7. La classification
    8. Données binaires



    ---------------
    A l'examen les étudiants auront droit aux 6 pages du formulaire (3 feuilles) et à la calculatrice.
    Les tables des lois seront données dans l'enoncé.

    L'examen aura lieu dans la salle SG1 et pas dans les salles CM 1 120/CM 1 121 comme indiqué sur IS-Academia


  • 16 September - 22 September

    Durant la première semaine du semestre de printemps nous allons faire une répétition des méthodes de Student, discuter le test de Pearson et les intervalles de confiance pour proportions, et présenter brièvement les méthodes de la vraisemblance.

  • 23 September - 29 September

    Cette semaine nous allons introduire les méthodes liées à la fonction de vraisemblance. La vraisemblance associe avec chaque valeur du paramètre sa «likelihood». L'estimation du paramètre qui en découle est la méthode du maximum de la vraisemblance, c'est-à-dire, le paramètre le plus «likely».
    L'information de Fisher observée est une procédure générale pour estimer la variance de cet estimateur.

  • 30 September - 6 October

    Le thème de la semaine est la régression multiple. Nous allons généraliser la méthode des moindres carrés et les formules pour les sommes de carrés, R2, les carrés moyen et le test F au cas de p variables x1,...,xp et le modèle yi = a + ß1 x1(i) + ... + ßp xp(i) + epsiloni

  • 7 October - 13 October

    La statistique F=(SCmod/p)/(SCerr/(n-p-1)) est utile pour tester la significance des coéfficients de régression ou plus précisement pour tester Ho : ß1 = ß2 = ... = ßp = 0.

    Les hypothèses Ho : ßk = 0 concernant des coefficients individuels sont également d'importance. Le test de Student et l'intervalle de confiance de Student traite ce cas.

    Le test F peut être adapté à la comparaison de modèles imbriqués. Dans la dernière partie du cours de cette semaine nous parlerons de la sélection d'un bon modèle. Lorsque l'on compare un petit modèle imbriqué dans un grand modèle, l'hypothèse nulle H0: <<le petit modèle est suffisant>> est équivalent à H0: les coéfficients supplémentaires du grand modèle sont tous 0. Le test rejette cette hypothèse et préfère le grand modèle lorsque SCerreur(petit modèle) - SCerreur(grand modèle) est grand. Plusieurs stratégies pour sélectionner un modèle peuvent être conçues avec ce test. La stratégie "en avant" (forward) test l'actuel modèle contre les modèles obtenus en ajoutant une variable suppémentaire. Si un ou plusieurs des nouveau modèles sont préferés, on remplace le modèle actual par celui avec la plus petite valeur de SCerreur. La stratégie "en arrière" (backward) teste le modèle actuel moins une de ses variables contre le modèle actuel. Si un ou plusieurs de ces tests ne rejettent pas le modèle simplifié, on remplace le modèle actuel par celui avec la plus petit valeur de SCerreur.

  • 14 October - 20 October

    Le cours de cette semaine commence par un rappel du thème de la sélection de modèles. Nous allons introduire des stratégies alternatives aux tests F, en particulier la méthode Cp.
    Ensuite nous allons discuter l'analyse de variance (ANOVA) à une voie. Il s'agit d'une méthode pour l'analyse d'une expérience dans laquelle on mesure une variable Y sous K conditions. Les données sont yij où i=1,...,K est une indice pour la condition et j=1,...,ni est l'indice pour la répétition de l'observations. Le modèle est yij = µi + erreur. Les K conditions distinguent des traitements différents, par exemple, des doses, des matériaux, ou des procédures différents. Le chercheur souhaite en règle générale test l'hypothèse nulle Ho: µ1 = µ2 = ... = µK, c'est-à-dire, l'absence d'effets du traitement. Nous allons introduire un test F pour juger la significance des différences entre conditions.

  • 21 October - 27 October

    Dans le cas où le test F rejette l'égalité des divers traitements, la découverte des différences significatives entre traiements devient importante. Lorsque K est grand, cette question ne peut pas sans autre être résolue par le test de Student, car one ne peut pas simplement effectuer les K(K-1)/2 tests t des hypothèses nulles Hors: µr = µs sans modifier le taux de faux rejets. Nous allons discuter de méthodes de corrections.
  • 28 October - 3 November

    Vacances de Pâques
  • 4 November - 10 November

    Cette semaine nous allons discuter des plans d'expériences à deux voies. Il est souvent une très bonne idée d'effectuer la comparaison de K traitements à l'intérieur de blocs. Dans une comparaison de traitements médicaux, par exemple, un bloc pourrait être un hôpital. Dans une expérience biologique, un bloc pourrait être une journée de travail. En utilisant des blocs on essaie de rendre les conditions expérimentales aussi égales que possible. Dans une telle expérience on peut généraliser le modèle de l'ANOVA à une voie yiji+erreurij en yijij+erreurij en introduisant un effet dû au bloc, ßj.
    L'ANOVA à deux voies est simplement une ré-interprétation de ce modèle. Si les blocs sont définis par un deuxième facteur on peut utiliser le même modèle, cette fois en écrivant yij=µ+aij+erreurij. Nous allons discuter l'ajustement de ce modèle par moindres carrés et discuter les test F des hypothèses nulles H0: a1=a2= ... = ak=0 et H0: ß1 = ... = ßl=0.

  • 11 November - 17 November

    Une expérience à deux facteurs avec des mesures répétées, c'est-à-dire, telle que chaque combinaison de niveaux des deux facteurs est répétée un nombre k > 1 fois, permet l'estimation de l'interaction. Le modèle avec interaction est yijr=µ+aij+(aß)ij+erreurijr. L'interaction est donc un effect des deux facteur ensemble et peut décrire une synergie entre deux niveaux.

    En deuxième partie du cours nous allons discuter des stratégies pour économiser le nombre de mesures nécessaires si on utilise plus que deux facteurs. Le plan 2k avec k facteurs, chacun à deux niveaux, en est un example.

  • 18 November - 24 November

    Au début de la leçon d'aujourd'hui nous allons discuter commment ajuster des modèles avec le logiciel R. Un fichier avec les commandes (Box228.R) est ajouté ci-dessous.

    Nous allons continuer notre discussion des plan 2k et démontrer que les effets estimé sont non biaisé avec variance (sigma)2/2k. Le manque de biais vient du fait que le plan d'expériences est un tableau balancé t.q. chaque couple de colonnes contient 2k/4 fois chacune des combinaisons (++), (+-), (-+) et (--).

    Ensuite les plans réduits ou fractionnaires 2k-m=2k/2m seront discutés. Avec un tel plan d'expériences, on ne peut plus estimer les effets des facteurs et toutes les interactions. Certains interactions seront confondues avec les effets principaux des facteurs.

    Un autre plan réduit, le carré latin qui ajuste les effets de 3 facteurs à k niveaux avec seulement k2 expériences sera introduit.

  • 25 November - 1 December

    Aujourd'hui le cours et les exercices auront lieu à la salle CE 2. De 10h00 à 12h00 un test d'une durée de deux heures sera organisé.

    Durant le cours nous allons brièvement investiger quelques thèmes supplémentaires tels que l'analyse de données avec une mixture de facteurs et de variables explicatives continues, l'analyse de résidues et la régression pondérée.

  • 2 December - 8 December

    Ascension
  • 9 December - 15 December

    Cette semaine nous allons commencer la discussion de la classification. Une première méthode à considérer est la classification hiérarchique qui donne comme résultat une représentation des données sous forme d'abre. Pour cette construction d'arbre il nous faut une notion de dissimilarité entre individus. L'algorithme procède ensuite par fusions consécutives. Au début, chaque individu forme son propre cluster. A la première étape, deux des individus fusionnent en forment un cluster à deux éléments. La séléction des deux se base sur la dissimilarité la plus petite. A chaque étape suivante on fusionne deux clusters existants. L'algorithme est fixe par une définition de la dissimilarité entre clusters. On parle de single linkage, si la distance minimal entre deux éléments des deux clusters détermine cette dissimilarité. Le complete linkage se base sur la distance maximale et l'average linkage utilise la moyenne des distances entre couples.

    Un deuxième algorithme célèbre pour former des classes est l'algorithme k-means qui se base sur le choix aléatoire de k des observations. Ensuite toutes les observations sont partagé en k groupes en ajoutant chaqu'une à une des k observations choisies (la plus proche). Finalement on calcule la moyenne des k groupes et refait les groupes et moyennes jusqu'à convergence.

  • 16 December - 22 December

    Une démonstration de l'algorithme k-means sera suivi de la discussion générale de l'évaluation d'un classement en deux groupes (bas risque/haut risque ou sain/malade, -/+, etc.) sur la base d'un ensemble de variables. Une tel classement se base sur une statistique qui prédit le groupe d'un individu. La performance de la méthode est jugé à l'aide des erreurs de classement. Si on appelle les groupes par les symboles (-) et (+), les erreurs sont les faux positifs et les faux négatifs. Le taux des faux positifs est la probabilité de classer un individu du groupe - comme étant positif. Le taux de faux négatifs est la probabilité (conditionnelle) de classer un vrai positif comme étant négatif.

    La courbe ROC est utilisé pour visualiser ces taux. Cette courbe montre le taux de vrai positifs (1-faux négatifs) en fonction des faux positifs. Le taux de vrai positifs est parfois appelé la sensibilité. Du même genre, le complément du taux de faux positifs est appelé la specificité.

  • 23 December - 29 December

    Cette semaine nous rappelons les méthodes pour données binaires, c'est-à-dire les tests pour une probabilité, pour la comparaison de deux probabilités et le test khi-deux. Nous allony y ajouter une autre méthode, la régression logistique.