File

file

Beispiel
Beispiel
Basisdaten

Hauptentwickler Christos Zoulas
Aktuelle Version 5.45[1]
(27. Juli 2023)
Betriebssystem Unix-ähnliches System
Programmier­sprache C[2]
Kategorie Befehlszeilenprogramm
Lizenz 2-Klausel-BSD-Lizenz
deutschsprachig nein
darwinsys.com/file/

file ist ein Unix-Programm zum Auslesen des Unix-Dateityps, des Dateiformats oder des MIME-Typs einer Datei sowie anderer Informationen über selbige. Dabei kann file lediglich jene Dateiformate und MIME-Typen korrekt ausgeben, die dem zugrundeliegenden Betriebssystem bekannt sind.[3]

Die erste Version von file datiert zurück bis 1973, Unix Research Version 4. System V beinhaltete schon eine wesentlich verbesserte Version von file, seit dieser Version wurden die Informationen über die Dateitypen nicht mehr direkt in die Programmdatei kompiliert, sondern von einer externen Textdatei (mime magic file) zur Laufzeit eingelesen.

Die heutzutage verbreiteten Unix-Derivate, das heißt vor allem BSD und Linux, verwenden eine freie Open-Source-Implementierung, die von Ian Darwin neu geschrieben wurde. Diese Implementierung wurde 1989 von Geoff Collyer weiterentwickelt und erhielt seitdem verschiedenste Verbesserungen, unter anderem von berühmten Open-Source-Hackern wie Guy Harris, Chris Lowth und Eric Fischer. Der aktuelle Betreuer ist Christos Zoulas.

Die Single UNIX Specification (SUS) sieht vor, dass eine Implementierung des Programms file eine fest definierte Reihe von Tests mit der auf der Kommandozeile angegebenen Datei durchführen muss, um damit ihren Typ festzustellen:

  • wenn die Datei nicht gelesen werden kann (beispielsweise aufgrund fehlender Dateirechte oder weil sie nicht existiert), ist ihr Typ nicht feststellbar (undefiniert). file gibt aus, dass die Datei nicht eingelesen werden konnte.
  • file stellt anhand eines stat()-Systemaufrufes fest, um welchen Dateityp es sich handelt. Unter Unix gibt es außer normalen Dateien noch Verzeichnisse, FIFOs, Sockets, Blockdateien (block special) und Zeichendateien (character special).
  • Leere Dateien werden als solche festgestellt (zum Beispiel Dateien, die per touch ohne Inhalt erstellt wurden, oder typischerweise Sperrdateien).
  • file liest die ersten Bytes bzw. die ganze Datei ein und versucht, dateitypspezifische Muster festzustellen, um auf diese Weise den Dateityp in Erfahrung zu bringen.
  • Wenn keine der Methoden zu einer Bestimmung des Dateityps geführt hat, wird die Datei als unbekannte Datei (data) bezeichnet.

In zeitgemäßen Implementierungen von file werden in den Tests, in denen Teile der Datei eingelesen werden, Vergleiche mit einer Textdatenbank angestellt, die magische Zahlen enthält. Damit unterscheidet sich file von wesentlich primitiveren Dateityperkennungen, z. B. anhand Dateiendungen oder MIME-Typ-Angaben.

In den meisten Implementierungen benutzt file eine Datenbank, mit der es die ersten Bytes einer Datei abgleicht. Diese Datenbank wird üblicherweise in einer sogenannten magic-Datei (engl., Magisch) gespeichert, welche typischerweise im Dateisystem unter /etc/magic, /usr/share/file/magic o. ä. gespeichert wird. Der Umfang dieser Datei ist meist ausschlaggebend für die Güte der file-Tests zur Bestimmung auch exotischer Dateitypen.

file lässt sich, wie die meisten Unix-Kommandos, quasi intuitiv benutzen. Ein Aufruf läuft nach dem Schema

file [Optionen] Datei

Eine der Single UNIX Specification konforme Implementierung von file muss mindestens die folgenden Argumente verarbeiten können:

Befehlszeilenparameter von file
Parameter Bedeutung
‑M magicfile Eine eigene „magische“ Datei angeben, die zur Dateityp-Bestimmung benutzt werden soll. Die normalerweise durchgeführten Tests werden dabei übersprungen.
‑m magicfile Funktioniert genauso wie -M magicfile, nur dass die anderen Tests auch durchgeführt werden.
-h Die potentielle Verwendung von Softlinks ausgeben.
-i Klassifiziert die Datei in eine der folgenden Gruppen: nonexistent, directory, FIFO, socket, block special, character special, symbolic link, regular file, empty file, unreadable file, executable, ar archive, extended cpio format, extended tar format, shell script, C programming language source, FORTRAN programming language source, data file

Die folgenden Beispiele zeigen die typischen Ausgaben von file, wenn man das Programm mit diversen Dateitypen aufruft. Die fiktiven Dateinamen sollen dabei dem eigenen Dateityp entsprechen. Das Rautezeichen # soll andeuten, dass diese Zeile in einer Shell eingegeben werden muss.

# file file.c
file.c: C program text

# file program
program: ELF 32-bit LSB executable, Intel 80386, version 1 (SYSV), dynamically linked
    (uses shared libs), stripped

# file /dev/wd0a
/dev/wd0a: block special (0/0)

# file -s /dev/hda1
/dev/hda1: Linux/i386 ext2 filesystem

# file -s /dev/hda5
/dev/hda5: Linux/i386 swap file

# file compressed.gz
compressed.gz: gzip compressed data, deflated, original filename, `compressed', last
    modified: Thu Jan 26 14:08:23 2006, os: Unix

# file data.ppm
data.ppm: Netpbm PPM "rawbits" image data
  • binfmt misc: Ein Linux-Kernelmodul, das wie file anhand der ersten Bytes von Dateien (magic numbers) Dateitypen zu erkennen versucht und damit Programme erkennt und ausführt.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Christos Zoulas: [File] file-5.45 is now available. 27. Juli 2023 (abgerufen am 28. Juli 2023).
  2. The file Open Source Project on Open Hub: Languages Page. In: Open Hub. (abgerufen am 17. Juli 2018).
  3. FILE(1). In: Debian Manpages (Debian Handbuchseiten). Abgerufen am 20. Februar 2021 (englisch).