Saisir un mot clé:
 
 

Théorie_de_l\'information

Ce site est un miroir du site http://fr.wikipedia.org/wiki/Accueil

google_ad_height = 15; google_ad_format = "728x15_0ads_al"; google_ad_channel =""; google_color_border = "f9f9f9"; google_color_bg = "FFFFFF"; google_color_link = "0000FF"; google_color_url = "008000"; google_color_text = "000000"; //-->

Un article de Wikipedia.y-project.com.

(Page à réorganiser avec Information)

La théorie de l'information se préoccupe des systèmes de communication et de leur efficacité. La notion de système de communication étant large, il en va de même de la théorie de l'information.

Ce domaine trouve son origine scientifique avec Claude Shannon qui en est un peu le père fondateur par son article A Mathematical Theory of Communications publié en 1948.

Parmi les branches importantes, on peut citer :

Sommaire

[] Histoire

La théorie de l'Information résulte initialement des travaux de Ronald Aylmer Fisher. Statisticien, il définit formellement l'information dans sa théorie des probabilités et des échantillons. Techniquement, l'information est égale à la valeur moyenne du carré de la dérivée du logarithme de la loi de probabilité étudiée. À partir de l'inégalité de Cramer, la valeur d'une telle information est proportionnelle à la faible variabilité des conclusions résultantes. En d'autres termes, Fisher met l'information en relation avec le degré de certitude. D'autres modèles mathématiques ont complété et étendu de façon formelle la définition de l'information.

Claude Shannon et Waren Weaver renforcent le paradigme. Ingénieurs en télécommunication, leurs préoccupations techniques les a conduit à vouloir mesurer l'information pour en déduire les fondamentaux de la Communication (et non une théorie de l'information). Dans Théorie Mathématique de la Communication en 1948, ils modélisent l'information pour étudier les lois correspondantes : bruit, entropie et chaos, par analogie générale aux lois d'énergétique et de thermodynamique. Leurs travaux complétant ceux d'Alan Turing, de Norbert Wiener et de John von Neumann (pour ne citer que les principaux) constituent le socle initial des « Sciences de l'Information ».

L'informatique n'étant qu'une déclinaison technologique pour l'automatisation des traitements (dont la transmission et le transport) d'information, considérer des « sciences de l'informatique » est incorrect. L'appelation « Technologies de l'Information et de la Communication » recouvre mieux les différents composants (systèmes de traitements, réseaux, etc.) de l'informatique au sens large.

Les sciences de l'information s'appuient principalement sur deux notions caractéristiques que sont la variation d'incertitude et l'entropie (désordre au sens d'absence d'ordre et donc de loi dans l'ensemble considéré, d'où indétermination). Déclinant ces principes et ceux d'autres sciences dures, les technologies de l'information s'occupent de la façon d'implémenter, agencer et réaliser des solutions pour répondre aux besoins des société humaines.

[] Exemples d'information

Une information désigne, parmi un ensemble d'évènements, un ou plusieurs évènements possibles.

Ainsi, l'information diminue l'incertitude. En théorie de la décision, on considère même qu'il ne faut appeler information que ce qui est susceptible d'avoir un effet sur nos décisions (peu de choses dans un journal sont à ce compte des informations...).

[] Premier exemple

Soit une source pouvant produire des tensions entières de 1 à 10 volts et un récepteur qui va mesurer ce courant. Avant l'envoi du courant électrique par la source, le récepteur n'a aucune idée de la tension qui sera délivrée par la source. En revanche, une fois le courant émis et réceptionné, l'incertitude sur le courant émis diminue. La théorie de l'information considère que le récepteur possède une incertitude de 10 états.

[] Second exemple

Une bibliothèque possède un grand nombre d'ouvrages, des revues, des livres et des dictionnaires. Nous cherchons un cours complet sur la théorie de l'information. Tout d'abord, il est logique que nous ne trouverons pas ce dossier dans des ouvrages d'arts ou de littérature; nous venons donc d'obtenir une information qui diminuera notre temps de recherche. Nous avions précisé que nous voulions aussi un cours complet, nous ne le trouverons donc ni dans une revue, ni dans un dictionnaire. nous avons obtenu une information supplémentaire (nous cherchons un livre), qui réduira encore le temps de notre recherche.

[] Information imparfaite

Soit un réalisateur dont j'aime deux films sur trois. Un critique que je connais bien éreinte son dernier film et je sais que je partage en moyenne les analyses de ce critique quatre fois sur cinq. Cette critique me dissuadera-t-elle d'aller voir le film ? C'est là la question centrale de l'inférence bayésienne, qui se quantifie aussi en bits.

[] Attention à ne pas confondre

Il faut moins de bits pour écrire chien que mammifère. Pourtant l'indication Médor est un chien contient bien plus d'information que l'indication Médor est un mammifère : le contenu d'information sémantique d'un message dépend du contexte. En fait, c'est le couple message + contexte qui constitue le véritable porteur d'information, et jamais le message seul (voir paradoxe du compresseur).

[] Mesure de la quantité d'information

[] Quantité d'information : cas élémentaire

Considérons N boîtes numérotées de 1 à N. Un individu A a caché au hasard un objet dans une de ces boîtes. Un individu B doit trouver le numéro de la boîte où est caché l'objet. Pour cela, il a le droit de poser des questions à l'individu A auxquelles celui-ci doit répondre sans mentir par OUI ou NON. Mais chaque question posée représente un coût à payer par l'individu B (par exemple un euro). Un individu C sait dans quelle boîte est caché l'objet. Il a la possibilité de vendre cette information à l'individu B. B n'acceptera ce marché que si le prix de C est inférieur ou égal au coût moyen que B devrait dépenser pour trouver la boîte en posant des questions à A. L'information détenue par C a donc un certain prix. Ce prix représente la quantité d'information représentée par la connaissance de la bonne boîte : c'est le nombre moyen de questions à poser pour identifier cette boîte. Nous la noterons I.

EXEMPLE :

Si N = 1, I = 0. Il n'y a qu'une seule boîte. Aucune question n'est nécessaire.

Si N = 2, I = 1. On demande si la bonne boîte est la boîte n°1. La réponse OUI ou NON détermine alors sans ambiguïté quelle est la boîte cherchée.

Si N = 4, I = 2. On demande si la boîte porte le n°1 ou 2. La réponse permet alors d'éliminer deux des boîtes et il suffit d'une dernière question pour trouver quelle est la bonne boîte par deux.

Si N = 2k, I = k. On écrit les numéros des boîtes en base 2. Les numéros ont au plus k chiffres binaires, et pour chacun de rang de ces chiffres, on demande si la boîte cherchée possède le chiffre 0 ou le chiffre 1. En k questions, on a déterminé tous les chiffres binaires de la bonne boîte. Cela revient également à poser k questions, chaque question ayant pour but de diviser successivement le nombre de boîtes considérées par 2 (méthode de dichotomie).

On est donc amené à poser I = log(N), où log est le logarithme en base 2, mais cette configuration ne se produit que dans le cas de N évènements équiprobables.

[] Quantité d'information relative à un évènement

Supposons maintenant que les boîtes soient colorées, et qu'il y ait n boîtes rouges. Supposons également que C sache que la boîte où est caché l'objet est rouge. Quel est le prix de cette information ? Sans cette information, le prix à payer est log(N). Muni de cette information, le prix à payer n'est plus que log(n). Le prix de l'information « la boîte cherchée est rouge » est donc log(N) ? log(n) = log N/n.

On définit ainsi la quantité d'information comme une fonction croissante de <math>\frac</math> avec :

  • <math>N</math> le nombre d'évènements possibles
  • <math>n</math> le cardinal du sous-ensemble délimité par l'information

Afin de mesurer cette quantité d'information, on pose : <math>I = log_ \left (\frac \right) </math>

<math>I</math> est exprimé en bit (ou logon, unité introduite par Shannon, de laquelle, dans les faits, bit est devenu un synonyme), ou bien en nat si on utilise le logarithme naturel à la place du logarithme de base 2.

Cette définition se justifie, car l'on veut les propriétés suivantes :

  1. l'information est comprise entre 0 et ? ;
  2. un évènement avec peu de probabilité représente beaucoup d'information (exemple : « Il neige en janvier » contient beaucoup moins d'information que « Il neige en août » pour peu que l'on soit dans l'hémisphère nord) ;
  3. l'information doit être additive.

Remarque : lorsqu'on dispose de plusieurs informations, la quantité d'information globale n'est pas la somme des quantités d'information. Ceci est dû à la présence du logarithme. Voir aussi : information mutuelle, information commune à deux messages, qui, dans l'idée, explique cette « sous-additivité » de l'information.

[] Entropie, formule de Shannon

Supposons maintenant que les boîtes soient de diverses couleurs : n1 boîtes de couleur C1, n2 boîtes de couleur C2, ..., nk boîtes de couleurs Ck, avec n1 + n2 + ... + nk = N. La personne C sait de quelle couleur est la boîte recherchée. Quel est le prix de cette information ?

L'information « la boîte est de couleur C1 » vaut log N/n1, et cette éventualité a une probabilité n1/N. L'information « la boîte est de couleur C2 » vaut log N/n2, et cette éventualité a une probabilité n2/N...

Le prix moyen de l'information est donc n1/N log N/n1 + n2/N log N/n2 + ... + nk/N log N/nk. Plus généralement, si on considère k évènements disjoints de probabilités respectives p1, p2, ..., pk avec p1 + p2 + ... + pk = 1, alors la quantité d'information correspondant à cette distribution de probabilité est p1 log 1/p1 + ... + pk log 1/pk. Cette quantité s'appelle entropie de la distribution de probabilité.

L'entropie permet donc de mesurer la quantité d'information moyenne d'un ensemble d'évènements (en particulier de messages) et de mesurer son incertitude. On la note <math>H</math> :

<math>H \left (I \right) = - \sum_{i\in I} p_i \mathbf_2\; p_i</math>

avec <math>p_i = \frac</math> la probabilité associée à l'apparition de l'évènement <math>i</math>.

Voir l'article détaillé : entropie de Shannon.

[] Codage de l'information

On considère une suite de symboles. Chaque symbole peut prendre deux valeurs s1 et s2 avec des probabilités respectivement p1 = 0,8 et p2 = 0,2. La quantité d'information contenue dans un symbole est p1 log 1/p1 + p2 log 1/p2 ? 0,7219. Si chaque symbole est indépendant du suivant, alors un message de N symboles contient en moyenne une quantité d'information égale à 0,72N. Si le symbole s1 est codé 0 et le symbole s2 est codé 1, alors le message a une longueur de N, ce qui est une perte par rapport à la quantité d'information qu'il porte. Les théorèmes de Shannon énoncent qu'il est impossible de trouver un code dont la longueur moyenne soit inférieure à 0,72N, mais qu'il est possible de coder le message de façon à ce que le message codé ait en moyenne une longueur aussi proche que l'on veut de 0,72N lorsque N augmente.

Par exemple, on regroupe les symboles trois par trois et on les code comme suit :

symboles à coder probabilité du triplet codage du triplet longueur du code
s1s1s1 0.83 = 0.512 0 1
s1s1s2 0.82 × 0.2 = 0.128 100 3
s1s2s1 0.82 × 0.2 = 0.128 101 3
s2s1s1 0.82 × 0.2 = 0.128 110 3
s1s2s2 0.22 × 0.8 = 0.032 11100 5
s2s1s2 0.22 × 0.8 = 0.032 11101 5
s2s2s1 0.22 × 0.8 = 0.032 11110 5
s2s2s2 0.23 = 0.008 11111 5

Le message s1s1s1s1s1s2s2s2s1 sera codé 010011110.

La longueur moyenne du code d'un message de N symboles est : <math>{N \over 3}(0.512 + 3 \times 0.128 \times 3 + 3 \times 0.032 \times 5 + 0.008 \times 5) = 0,728N</math>

Voir l'article détaillé : théorie des codes.

[] Voir aussi

[] Bibliographie

  • Léon Brillouin Science et théorie de l'information.
  • Léon Brillouin Science and information theory (typographie plus lisible, mais version en anglais)
  • Claude E.Shannon A mathematical theory of communication Bell System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and October, 1948 [1]

[] Liens externes

 
Le Texte ci-dessus est disponible sous GNU Free Documentation License.
La source est wikipedia http://fr.wikipedia.org/wiki/Théorie de l\\\'information
Home

Données
A la une
Articles
Formatons en lignes
Téléchargement
Licence GNU
Encyclopedie
Portail logiciels libres

Partenaires

beyrouthsurseine.com
Sonnerie & Logos
Photos-Video
Ringtones-Sonnerie
Actualite.org
Terrain tennis

  
Novembre 2008
L
M
M
J
V
S
D
1 2
3456789
1011 1213141516
17181920212223
24252627282930
     
Tous les Logos et Marques sont déposés, les commentaires sont sous la responsabilité de ceux qui les ont publiés, le reste © technicmania.com