Join (Unix)

join è un comando dei sistemi operativi Unix e Unix-like, e più in generale dei sistemi POSIX[1], che legge due file di testo le cui linee contengono dei dati separati in più campi, ed unisce tra loro quelle che hanno un determinato campo in comune, presentando il risultato sullo standard output. Le linee di dati di entrambi i file debbono essere prima ordinate in base al valore dei campi scelti per l'unione (ad esempio tramite il comando sort), altrimenti il risultato è indefinito.

Specificando le opzioni opportune è possibile usare join anche per ottenere le linee che non hanno corrispondenza, sia di un solo file che di entrambi, e sia in aggiunta che in sostituzione al normale output.

La sintassi generale di join è la seguente:

join [opzioni] [--] file1 file2

I parametri file1 e file2 specificano rispettivamente i nomi del primo e del secondo file di testo di cui unire le linee. Uno di essi può essere un trattino ("-") per indicare lo standard input.

Il doppio trattino -- (facoltativo) indica che i parametri successivi non sono da considerarsi opzioni.

Il comportamento predefinito prevede di usare come separatore di campo una serie di uno o più spazi, di unire le linee usando il primo campo di ciascun file e di mostrare per ogni corrispondenza trovata il campo in comune seguito dai rimanenti campi del primo file e dai rimanenti campi del secondo file.

Tra le opzioni principali vi sono:

-a 1
Oltre alle linee corrispondenti, include nel risultato anche le linee del primo file che non hanno corrispondenza nel secondo file.
-a 2
Oltre alle linee corrispondenti, include nel risultato anche le linee del secondo file che non hanno corrispondenza nel primo file.
-e stringa
Usa il valore indicato dal parametro stringa per i campi che altrimenti non avrebbero un valore definito (quando ad esempio sono usate le opzioni -a o -v).
-o campi
Specifica il formato del risultato: il parametro campi è una lista separata da virgole o da spazi di voci che indicano un campo, nella forma numero_file.numero_campo (ad esempio 1.3 indica il terzo campo del primo file, mentre 2.1 indica il primo campo del secondo file) oppure il valore speciale 0 per indicare il campo scelto per l'unione.
-t separatore
Usa il carattere indicato dal parametro separatore come separatore di campo sia per i file letti che per il risultato. Se non specificata, il separatore è una sequenza di uno o più spazi.
-v 1
Tralascia le linee corrispondenti tra i due file ed include nel risultato le linee del primo file che non hanno corrispondenza nel secondo file.
-v 2
Tralascia le linee corrispondenti tra i due file ed include nel risultato le linee del secondo file che non hanno corrispondenza nel primo file.
-1 numero_campo
Indica il numero del campo nel primo file (a partire da 1) da usare per unire i due file. Se non specificata, il comportamento predefinito prevede di usare il primo campo.
-2 numero_campo
Indica il numero del campo nel secondo file (a partire da 1) da usare per unire i due file. Se non specificata, il comportamento predefinito prevede di usare il primo campo.

Dati due file contenenti le linee che seguono

file1.txt (ordinato per il secondo campo):

Werner Herzog;de;1942
Wim Wenders;de;1945
Pedro Almodovar;es;1949
François Truffaut;fr;1932
Jean-Luc Godard;fr;1930
Sergio Leone;it;1929
Alfred Hitchcock;uk;1899
Stanley Kubrick;us;1928

file2.txt (ordinato per il primo campo):

ch;Svizzera
de;Germania
es;Spagna
fr;Francia
it;Italia
uk;Regno Unito

Unisce i dati dei registi ai nomi estesi delle loro nazioni (notare che Stanley Kubrick è escluso in quanto gli Stati Uniti d'America non sono elencati nel secondo file):

$ join -t ";" -1 2 -2 1 file1.txt file2.txt
de;Werner Herzog;1942;Germania
de;Wim Wenders;1945;Germania
es;Pedro Almodovar;1949;Spagna
fr;François Truffaut;1932;Francia
fr;Jean-Luc Godard;1930;Francia
it;Sergio Leone;1929;Italia
uk;Alfred Hitchcock;1899;Regno Unito

Come sopra, ma ordina diversamente i campi (opzione -o) e non include la sigla dello stato:

$ join -t ";" -1 2 -2 1 -o 2.2,1.3,1.1 file1.txt file2.txt
Germania;1942;Werner Herzog
Germania;1945;Wim Wenders
Spagna;1949;Pedro Almodovar
Francia;1932;François Truffaut
Francia;1930;Jean-Luc Godard
Italia;1929;Sergio Leone
Regno Unito;1899;Alfred Hitchcock

Come sopra, ma include anche i dati delle linee non corrispondenti di entrambi i file (opzioni -a 1 e -a 2), usando la stringa n.d. (opzione -e) in sostituzione dei valori non definiti:

$ join -t ";" -1 2 -2 1 -o 2.2,1.3,1.1 -e "n.d." -a 1 -a 2 file1.txt file2.txt
Svizzera;n.d.;n.d.
Germania;1942;Werner Herzog
Germania;1945;Wim Wenders
Spagna;1949;Pedro Almodovar
Francia;1932;François Truffaut
Francia;1930;Jean-Luc Godard
Italia;1929;Sergio Leone
Regno Unito;1899;Alfred Hitchcock
n.d.;1928;Stanley Kubrick

Come sopra, ma visualizza solo i dati delle linee non corrispondenti di entrambi i file (opzioni -v 1 e -v 2 ):

$ join -t ";" -1 2 -2 1 -o 2.2,1.3,1.1 -e "n.d." -v 1 -v 2 file1.txt file2.txt
Svizzera;n.d.;n.d.
n.d.;1928;Stanley Kubrick
  1. ^ (EN) join, in The Open Group Base Specifications Issue 6 IEEE Std 1003.1, 2004 Edition. URL consultato il 15 giugno 2008.

Voci correlate

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica