TER de Maitrise d'Informatique

TER de Maitrise



  • Pour nous présenter en quelques mots, nous sommes quatre étudiant en Informatique qui, dans le cadre de la matière "Travaux d'Etude et de Recherche" de Maîtrise ont réalisé un projet servant à visualiser de manière claire l'analyse de fichiers LOG d'Internet.
  • Notre "Quatuor" se compose par ordre alphabétique des personnes suivantes :


    • CASSIER Julien
    • CZAJEZYNSKI Yann
    • DARGAYE Zaynah
    • LONY David

  • Ce projet a été réalisé en langage CAML et a été sanctionné par une note de 19/20.
  • Nous avons choisi de le mettre sous licence LGPL pour permettre à d'autre personne d'utiliser nos sources.
  • Vous pouvez donc télécharger ce projet en cliquant sur le lien ci-dessous :


N.B: Le fichier proposé est un fichier compressé contenant les sources du projet, un Makefile et une petite notice explicative.





  • Explications du projet:

    • La question principale de ce projet était comment représenter les fichiers LOG d'Internet de façon claire sans être submergé par les données ?


    • Nos professeurs, Roberto DI COSMO et Alexandre MIQUEL nous ont proposé pour cela de représenter ces informations sur un plan hyperbolique. On peut ainsi représenter des informations qui peuvent être "infinies" sur un espace fini.
      Une sphère "hyperbolique", réaliser par Alexandre MIQUEL, a été la base de notre projet et il ne nous restait plus qu'a réfléchir à l'utilisation de cette dernière pour représenter de façon intelligente nos données.

    • Et le projet débuta…

    • Au final, voici comment se modélise notre projet:

    • On a représenté l'arborescence du site par un graphe comportant quatre types d'étiquettes :
      • Les étiquettes rouges sont les pages du site analysé.
      • Les étiquettes bleues sont les différentes pages extérieures au site par lesquelles sont venus les visiteurs sur le site.
      • On rattache aux étiquettes bleues toutes les personnes qui sont venues par ce site : chaque personne correspondant à une étiquette rose.
      • Enfin, les étiquettes vertes représentent le parcours d'une personne sur le site.

    • La racine du site Web analysé (sa page d'accueil par exemple) est utilisée comme base de départ. Au lancement du programme, on verra donc s'afficher une étiquette rouge (la racine) à laquelle viendront se rattacher toutes les étiquettes bleues (c'est-à-dire tout les sites qui ont permis à des personnes de venir sur cette page) et toutes les étiquettes rouges (c'est-à-dire les pages du site auxquelles ont peut avoir accès à partir de la racine).

    • On peut ensuite se balader à travers tout le site en repérant par exemple quelles pages sont les plus fréquentées ou encore quel site extérieur me rapporte le plus de visiteurs.

    • A noter que chaque arc reliant deux étiquettes possède une couleur précise donnant des informations en plus. Nous avons choisi de représenter à l'aide de ces couleurs le trafic existant entre ses deux étiquettes.
      Ainsi, on a opté pour une couleur "froide" lorsque ce trafic n'était pas important et une couleur chaude lorsque celui-ci l'était.
      Voici la classification exacte des couleurs des arcs :
      • Bleu correspond à moins d'une personne sur 100 qui est passé par cette arc.
      • Cyan correspond à un trafic entre 1 personne sur 100 et une personne sur 80.
      • Vert correspond à un trafic entre 1 personne sur 80 et une personne sur 60.
      • Jaune correspond à un trafic entre 1 personne sur 60 et une personne sur 30.
      • Orange correspond à un trafic entre 1 personne sur 30 et une personne sur 10.
      • Rouge correspond à un trafic de plus d'une personne sur 10.

    • Enfin, il existe encore un dernier type d'arc, l'arc noir qui relie les étiquettes où il n'est pas censé avoir un quelconque trafic (par exemple entre les étiquettes bleues et les étiquettes roses). Pour repérer plus facilement les personnes ayant effectués un long parcours du site (chose que l'on a jugée intéressantes à faire ressortir visuellement), nous avons choisi de colorier en rouge l'arc reliant l'étiquette rose correspondant à une personne ayant un LOG "intéressant".

    • Pour finir, nous avons enfin ajouté à notre projet la possibilité de ne conserver à l'affichage que les LOG d'une seule journée ; on pourra ainsi étudier facilement le LOG d'un site jour après jour.
      Pour ce faire, il suffit de cliquer dan le cadre situé en haut de la fenêtre, de taper sur le clavier un date du type JJ/MMM/AAAA (ex : 10/MAR/2004 pour le 10 Mars 2004) et de cliquer ensuite sur la fenêtre directement pour voir s'afficher les différents LOG correspondant a cette journée.


    • N.B : Il existe aussi un fichier nommé "stat" que l'on peut ouvrir à l'aide d'un navigateur Internet qui regroupe toutes les pages et objets contenu dans le LOG avec le nombre de fois qu'ils ont été télécharger.





Voici quelques images de notre projet :


Image 1
Image 2
Image 3
Image 4