Bandeau
S’informer et apprendre en ligne
OWL, LMS, iLES.

Les sites des iLES proposent des ressources en mathématiques et en sciences. Ils scrutent l’actualité statistique et culturelle. Ils utilisent des CDF et des widgets. Ils offrent de l’interaction entre apprenants.

Rechercher dans ces sites

CMS LMS
Apprendre en ligne (nouvelle version) iLES
Arts-Scènes
Statistique
Analyse de textes
Fréquences d’apparition des mots. Loi de puissance.

Analyse de la fréquence d’apparition des mots utilisés pour écrire un texte.

Article mis en ligne le 13 août 2006
dernière modification le 20 mars 2013

par bernard.vuilleumier

Fréquences d’apparition des mots dans un texte

Le vocabulaire d’un enfant de 10 ans comporte environ 5’000 mots, celui d’un adulte cultivé 70’000 et les dictionnaires en plusieurs volumes peuvent en contenir de 130’000 à 200’000 [1]. Mais pour juger de la qualité lexicographique d’un texte, il faut non seulement connaître le nombre de mots utilisés mais aussi la fréquence d’apparition des mots.

Pour en savoir plus
 Loi de Zipf - Wikipédia
 Jean Véronis, Informatique et statistique I

Questions

  1. Placez le fichier à analyser dans le répertoire courant.
  2. Formez la liste des mots figurant dans le fichier.
  3. Définissez les motifs permettant d’éliminer les « mots » indésirables et éliminez-les de la liste des mots.
  4. Etablissez les fréquences d’apparition des mots et classez ces fréquences par ordre décroissant en éliminant les doublons (vous ne retenez qu’une fois chaque fréquence).
  5. Reportez le logarithme de la fréquence en fonction du logarithme de sa position dans la liste.
  6. Comment peut-on comparer la richesse lexicographique de différents textes à partir de ce graphique ?

Documents
Fréquence des mots et des lettres dans un texte 26.8 kio / Zip