Codage de l'information – Fichier

Eric Obermeyer – Actualisation: décembre 2014

 

I) Codage de l'information. 1

1) Information élémentaire: bit. 1

2) Choix de l'octet comme unité de codage. 1

3) Un byte est-il égal à un octet ?. 2

4) Choix de la notation hexadécimale pour coder un octet. 2

5) Un kilooctet (un ko) vaut-il 1000 ou 1024 octet ?. 2

6) Préfixes binaires. 2

II) Fichier. 3

1) Qu'est-ce qu'un fichier ?. 3

2) Détails. 3

a) Nom et extension. 3

b) Attributs. 3

c) Métadonnées. 3

3) Il y a deux sortes de fichiers: 3

a) Les fichiers programmes. 3

b) Les fichiers de données. 3

4) Organisation des fichiers. 3

III) Système de gestion de fichiers. 4

1) Description rapide. 4

2) Rôle. 4

3) Chemin d'accès à un fichier ou à un répertoire. 4

a) Chemin absolu. 4

b) Chemin relatif 4

 

I) Codage de l'information

1) Information élémentaire: bit

Un microprocesseur est un assemblage de millions (plus d'un milliard pour les plus performants) de transistors. Un transistor est un "interrupteur" qui a deux états possibles, passant ou non-passant. L'information élémentaire a donc deux états possibles, que l'on note 0 ou 1.

En informatique, on appelle bit (contraction de binary digit, chiffre binaire) 0 ou 1.

Le symbole du bit est b.

2) Choix de l'octet comme unité de codage

Or ce n'est pas le bit, mais l'octet qui a été adopté comme unité élémentaire de codage informatique. Un octet est composé de 8 bits, et donc peut prendre 28 = 256 valeurs différentes. Une des raisons  de l'adoption de l'octet est que les processeurs du début de l'âge d'or de l'informatique (années 70) ont rapidement été capables de traiter l'information 8 bits par 8 bits, c’est-à-dire octet par octet. Depuis les processeurs ont traité 16, 32 et maintenant traitent 64 bits (donc 8 octets) d'un coup.

Le symbole de l'octet est o.

3) Un byte est-il égal à un octet ?

En informatique, oui…

Un byte (que ce soit en français ou en anglais) c'est la plus petite unité de mémoire adressable sur un système donné. Aujourd'hui, en informatique, les bytes de 8 bits se sont généralisés, et on peut donc dire qu'un byte est égal à un octet, donc un byte est égal à 8 bits.

Le symbole du byte est B.

Attention, il ne faut pas confondre byte et bit. Par exemple la bande passante maximum de votre "box" d'accès à internet est mesuré en Mb (mégabit), et pas en MB (mégabyte, ou encore Mo (mégaoctet)). Il est plus facile de vendre une "box" avec un débit de 20 Mb plutôt qu'un débit de 2,5 MB, pourtant c'est le même…

4) Choix de la notation hexadécimale pour coder un octet

La base 16 utilise les 16 "chiffres" 0,1,…,9,A,B,…,F

Un octet peut prendre 256 = 16 x 16 valeurs. En base 16 un octet est donc un nombre de deux chiffres, compris entre 00 et FF. C'est très commode. De plus les conversions base 2 vers base 16 et réciproquement sont très simples. Pour ces raisons, un octet est noté en base hexadécimale (en base 16).

Un "document" informatique, on dit fichier est donc une suite ordonnée d'octets.

5) Un kilooctet (un ko) vaut-il 1000 ou 1024 octet ?

Comme les informaticiens travaillent en base 2 ou en base 16 et comptent en octets, ils ont détourné le sens du préfixe "kilo", qui veut dire 1000 (un kilomètre = mille mètres) et ont "décidé" qu'en informatique un kilo valait 210=1024, un méga valait 1020 =1048576, etc… C'est très commode et encore utilisé largement aujourd'hui par beaucoup de monde et par exemple par le système d'exploitation Windows.

 

Ce détournement du système international d'unités (SI) est source de nombreuses confusions. Aussi en 1998, la Commission Electrotechnique Internationale (IEC) a décidé de mettre un peu d'ordre dans ces usages en créant des préfixes binaires pour les mesures informatiques. Voilà le tableau des préfixes binaires créés à cette occasion:

6) Préfixes binaires

 

Préfixes binaires (préfixes CEI)

Préfixes décimaux (préfixes SI)

Nom

Symbole

Valeur

Nom

Symbole

Valeur

kibi

Ki

210 = 1024

kilo

k

103 =1000

mébi

Mi

220=1048576

méga

M

106 =1000000

gibi

Gi

230 

giga

G

 109

tébi

Ti

240 

téra

T

 1012 

pébi

Pi

250 

péta

P

 1015 

exbi

Ei

260 

exa

E

 1018 

zébi

Zi

270 

zetta

Z

 1021 

yobi

Yi

280 

yotta

Y

 1024 

 

La réponse à la question posée précédemment est donc: un ko (kilooctet) vaut 1000 octets et pas 1024… C'est un Kio (kibioctet) qui vaut 1024 octets.

Les dernières versions d'Ubuntu et de mac OS utilisent les préfixes binaires, mais pas encore Windows…

Les fabricants de disques durs ont bien intégré les nouvelles consignes: un disque dur d'un To (téraoctet) aura une taille de 931.5 Go (en réalité des Gio) pour Windows.


 

II) Fichier

1) Qu'est-ce qu'un fichier ?

Un fichier informatique est une suite ordonnée d'octets enregistrés sur un support de stockage à mémoire non volatile  comme un disque dur, une clé USB ou un DVD.

2) Détails

a) Nom et extension

Un fichier a un nom et souvent un suffixe, l'extension du fichier, qui renseigne  l'OS (operating system ou encore système d'exploitation) sur la nature des informations contenues dans le fichier et le logiciel utilisé par défaut pour l'ouvrir, c’est-à-dire l'exécuter. Nom et extension sont séparés par un point.

Le nom avec extension du fichier peut être par exemple  script.bat , lettre.doc ou notepad.exe.

b) Attributs

Un fichier a des attributs, qui indiquent par exemple s'il doit être caché dans l'explorateur ou si c'est un fichier système. Ces attributs sont gérés par l'OS.

c) Métadonnées

 A chaque fichier est attaché un certain nombre de métadonnées,  des informations concernant le fichier, mais qui ne sont pas contenues dans le fichier (elles sont gérées par l'OS (operating system ou encore système d'exploitation): sa taille (le nombre d'octets du fichier), son propriétaire, les utilisateurs autorisés à le manipuler, ainsi que la date de la dernière modification par exemple.

3) Il y a deux sortes de fichiers:

a) Les fichiers programmes

Les fichiers programmes, ou encore fichiers exécutables contiennent du code directement exécutable par le microprocesseur. Ils sont identifiés par le système d'exploitation par leur extension, .exe ou .bat par exemple dans Windows.

b) Les fichiers de données

Les fichiers de données contiennent du code qui n'est pas directement exécutable par le microprocesseur. Ils doivent être ouverts (exécutés) par un fichier programme. Leur extension précise la nature des données qu'ils contiennent, et permet aux fichiers programmes de "savoir" s'ils sont capables ou non d'ouvrir le fichier de données. Pour chaque extension de fichier de données il y a un programme par défaut (on peut le changer) destiné à l'ouvrir.

Par exemple, les fichiers avec l'extension .html vont être ouverts par le navigateur par  les fichiers .odt par Libre Office Writer, les fichiers .py par Python, etc…

4) Organisation des fichiers

En vue de faciliter leur localisation et donc de garantir un accès rapide, les fichiers sont classés par l'OS dans une structure arborescente  par  le système de gestion de fichiers:


 

III) Système de gestion de fichiers

1) Description rapide

Pour l'utilisateur, un système de fichiers est vu comme une arborescence : les fichiers sont regroupés dans des conteneurs appelés  répertoires ou dossiers. Ces répertoires contiennent soit des fichiers, soit d'autres répertoires. Il y a donc un répertoire racine et des sous-répertoires. Une telle organisation génère une hiérarchie de répertoires et de fichiers organisés en arbre.

2) Rôle

Les objectifs du système de gestion de fichiers sont:

- de permettre l'accès au contenu des fichiers stockés (l'ouverture du fichier, son enregistrement, sa copie,  son déplacement dans un second emplacement, sa suppression) à partir de leurs chemins d'accès.

- de gérer les métadonnées et les attributs attachés aux fichiers.

3) Chemin d'accès à un fichier ou à un répertoire

Le chemin d'accès à un fichier est une chaîne de caractères décrivant la place du fichier dans l'arborescence. Ce chemin peut être un:

a) Chemin absolu

La position du fichier est décrite depuis la racine de l'arbre, qui est sous Windows le nom de la partition (comme C: ou E:) dans laquelle se trouve le fichier. On sépare les noms des répertoires successifs depuis la racine de l'arbre jusqu'à la "branche" contenant le fichier (que l'on peut voir comme une feuille de l'arbre) par le caractère \ (antislash) dans Windows, et par un caractère / (slash) dans linux  ou sur le web.

Par exemple si un fichier a pour chemin absolu  C:\documents\lettres\modele.txt, cela signifie que son nom est modele.txt, qu'il est situé dans le répertoire lettres qui lui-même est situé dans le répertoire documents qui lui-même est à la racine du lecteur C:

b) Chemin relatif

La position du fichier (ou du répertoire) est décrite depuis le répertoire où l'on est, ce qui implique que le fichier soit dans l'un des sous répertoire.

En reprenant l'exemple précédent, depuis le répertoire C:\documents, notre fichier a pour chemin relatif lettres\modele.txt