La Serial Digital Interface (comunemente chiamata SDI) è un'interfaccia digitale seriale utilizzata per il trasporto di segnali video in ambito professionale e broadcast. Permette maggior qualità di ripresa perché evita l'intervento dei codec di compressione impiegati nella registrazione su supporti, integrati nelle videocamere (nastro, cassetta, schede di memoria). Essa è standardizzata come ITU-R BT.656 e SMPTE 259M. La larghezza di banda di questo collegamento è di 270 Mbit per secondo. Questa implementazione è studiata per la trasmissione di segnali televisivi PAL e NTSC (quella che oggi chiamiamo definizione standard) per cui si associa spesso la sigla SD (standard definition) alla sigla SDI (SD-SDI).
Esiste una versione per trasmettere segnali ad alta definizione, conosciuta come High Definition Serial Digital Interface (HD-SDI) contemplata dallo standard SMPTE 292M. La versione HD-SDI ha una capacità di banda di 1.485 Gbit per secondo. Per alcune applicazioni, come nel caso della cinematografia digitale, tale banda può non essere sufficiente. Per tale motivo si utilizza una modalità conosciuta come dual link definita dalle specifiche SMPTE 372M. Tale versione, come dice il nome stesso, prevede l'utilizzo di due connessioni HD-SDI contemporanee. Essa è capace di una larghezza di banda nominale di 3 Gbit per secondo. L'utilizzo della modalità dual link richiede un secondo cavo tra i due apparati e questo; nel caso di installazioni complesse, può creare problemi relativi alla complessità del cablaggio e al costo. Una versione di questa interfaccia, definita 3G-SDI, standardizzata come SMPTE 424M, in cui, su un singolo cavo, è possibile ottenere la larghezza di banda di 3 Gbit per secondo.
L'interfaccia SDI è un sistema di trasmissione di segnali digitali non compressi e non criptati ed è di larghissimo impiego all'interno delle infrastrutture di produzione televisiva. È possibile, come opzione, trasferire anche segnali audio integrati all'interno del flusso video.
L'interfaccia è progettata per operazione su distanze brevi, a causa dell'elevato bitrate. Sia la SDI che la HD-SDI sono interfacce disponibili solo su apparecchiature di tipo professionale, a causa di alcuni accordi di licenza che non prevedono l'uso di segnali digitali non criptati su apparecchi di classe domestica, anche se esistono box esterni con ingressi compatibili e schede video idonee, per il collegamento a computer. Al pari esistono alcune modifiche per lettori DVD per implementare un'interfaccia SDI.
I vari tipi di interfaccia seriale digitale usano tutti uno o più cavi coassiali con connettori BNC, con un'impedenza nominale di 75 ohm. Si tratta dello stesso tipo di cavo utilizzato per gli impianti video analogici, il che rende in teoria molto semplice l'aggiornamento delle infrastrutture e il cablaggio degli apparati, anche se su lunghe distanze può rendersi necessario l'impiego di un cavo di migliore qualità. L'ampiezza del segnale alla sorgente è di 800 mV (±10%) picco-picco, mentre tensioni parecchio inferiori possono essere misurate alla ricezione a causa dell'attenuazione. Con opportuni equalizzatori sull'apparato ricevente è possibile inviare segnali a 270 Mb/s su cavi lunghi anche 150 metri, ma è preferibile l'uso di distanze inferiori. I segnali in alta definizione hanno una lunghezza massima inferiore, nell'ordine degli 80 metri.
I segnali trasmessi sono digitali a componenti senza compressione, con codice di canale NRZI, e un registro a scorrimento a retroazione lineare viene utilizzato per ridurre la possibilità che vengano trasmesse lunghe sequenze di zero o di uno.
Dal momento che nell'interfaccia SDI esiste una relazione fissa tra la temporizzazione dei campioni video (27 MHz) ed il clock (270 MHz), questa interfaccia è di tipo autosincrono; inoltre uno schema di sincronizzazione è presente sul segnale digitale come una sequenza di dieci uno seguita da venti zero. Questa sequenza non è consentita in nessun altro posto all'interno dei dati trasmessi.
La sequenza di sincronizzazione diventa di venti uno seguita da quaranta zero nel caso di segnali ad alta definizione.
Standard | Nome | Bitrate | Esempio di formati video |
---|---|---|---|
SMPTE 259M | SD-SDI | 270 Mbit/s, 360 Mbit/s, 143 Mbit/s, e 177 Mbit/s | 480i, 576i |
SMPTE 344M | ED-SDI | 540 Mbit/s | 480p, 576p |
SMPTE 292M | HD-SDI | 1.485 Gbit/s, e 1.485/1.001 Gbit/s | 720p, 1080i |
SMPTE 372M | Dual Link HD-SDI | 2.970 Gbit/s, e 2.970/1.001 Gbit/s | 1080p a 30fps |
SMPTE 424M | 3G-SDI | 2.970 Gbit/s, e 2.970/1.001 Gbit/s | 1080p a 60fps |
SMPTE ST-2081 | 6G-SDI | 6 Gbit/s | 2160p a 30fps |
SMPTE ST-2082 | 12G-SDI | 12 Gbit/s | 2160p a 60fps |
Come si osserva dalla tabella, sono usati diversi bitrate:
Lo standard SMPTE 292M definisce, insieme all'interfaccia elettrica, anche un'interfaccia ottica che da più parti è oramai considerata obsoleta. Un'interfaccia parallela digitale a 8 bit è definita da CCIR 601, ed è obsoleta a sua volta (in ogni caso, molte clausole dei vari standard permettono come opzione un'interfaccia a 8 bit).
Per impieghi a definizione standard e avanzata, il formato dati parallelo è definito a 10 bit, mentre in quelli ad alta definizione a 20, divisi in due flussi dati paralleli a 10 bit (noti come Y e C). Il flusso a definizione standard (SD) è composto in questa maniera:
mentre i flussi ad alta definizione (HD) sono composti così:
In entrambi i casi, il video è codificato nel formato 4:2:2, il che significa che il canale di luminanza e codificata a piena larghezza di banda (13.5 MHz nella SD a 270Mbit/s SD, ~75 MHz nella HD), e i due canali di crominanza sono sottocampionati orizzontalmente, e codificati a metà della larghezza di banda (6.75 MHz o 37.5 MHz). I campioni Y, Cr e Cb sono coacquisiti, cioè acquisiti nello stesso istante di tempo, e il campione Y' è acquisito nell'intervallo di tempo tra due campioni Y adiacenti.
Nello schema sopra, la Y indica i campioni di luminanza, e la C i campioni di crominanza. Cr E Cb si riferiscono ai canali di differenza di colore rosso e blue, rispettivamente.
Il video attivo (e anche i dati ausiliari) possono usare ogni parola di 10 bit nella gamma 4-1019 (in esadecimale, 004-3FB) inclusi, i valori 0-3 e 1020-1023 (3FC-3FF) sono riservati e non possono far parte del video attivo. Le parole riservate sono utilizzate per due scopi, la sincronizzazione e le intestazioni dei dati ausiliari.
Un pacchetto di sincronizzazione (noto comunemente come segnale di riferimento temporale o TRS) precede immediatamente il primo campione attivo di ogni linea, altrettanto immediatamente segue l'ultimo campione attivo, precedendo l'inizio del periodo di sincronizzazione orizzontale. Il pacchetto di sincronizzazione consiste di quattro parole di 10 bit. Le prime tre parole sono costantemente 0x3FF,0,0 mentre la quarta consiste di 3 flag e di un codice di correzione d'errore. Come risultato, ci sono otto differenti pacchetti di sincronizzazione possibili.
Nelle interfacce HD-SDI e dual link, i pacchetti di sincronizzazione devono presentarsi simultaneamente in entrambi i flussi Y e C. Nel caso del dual link, è possibile un ritardo tra i due cavi di una stessa interfaccia, per cui le apparecchiature che lo utilizzano dovrebbero avere un buffer che immagazzina il primo segnale fino all'arrivo dell'altro. Nelle interfacce SD e ED c'è un solo flusso di dati, per cui un solo pacchetto di sincronizzazione alla volta. Al di là del numero dei pacchetti, in ogni caso, il loro formato è lo stesso per tutte le versioni dell'interfaccia SDI.
I bit di flag presenti nella quarta parola (comunemente chiamata XYZ) sono noti come H, F e V. Il bit H indica la partenza della cancellazione orizzontale: i bit di sincronizzazione immediatamente precedenti alla regione di cancellazione orizzontale devono avere il bit H impostato a 1. Normalmente, ci si riferisce a questi pacchetti come alla fine del video attivo, o pacchetti EAV. Allo stesso modo, il pacchetto immediatamente prima della partenza del video attivo ha il bit H impostato a 0; si tratta del pacchetto partenza del video attivo o SAV.
In maniera simile, il bit V è impiegato per indicare la partenza della regione di cancellazione verticale. Un pacchetto EAV con V impostato a 1 indica che la linea successiva fa parte dell'intervallo verticale, mentre uno con V impostato a 0 indica che la linea seguente fa parte del video attivo.
Il bit F è utilizzato nei formati interlacciati e segmentati per indicare se la linea appartiene al primo o al secondo campo (o segmento). Nei formati a scansione progressiva, il bit F è sempre a zero.
Nella versione dell'interfaccia per l'alta definizione (e anche nella versione dual link), sono implementate ulteriori parole di controllo per aumentare la robustezza dell'interfaccia. In questi formati, i quattro campioni immediatamente precedenti i pacchetti EAV (ma non i SAV) contengono un campo cyclic redundancy check (CRC) e un contatore di linea. Il valore CRC di ciascun campo contiene il controllo della linea precedente (calcolati indipendentemente per i flussi Y e C) e può essere usato per rilevare errori sul flusso trasmesso. Il contatore di linea indica il numero della linea corrente.
Sia il CRC che il contatore di linea non sono disponibili nelle versioni SD e ED dell'interfaccia. Al loro posto, un pacchetti dati ausiliario conosciuto come pacchetto EDH può essere impiegato come controllo di errore.
Ciascun campione in un dato flusso ha un numero di linea e di campione unico. In tutti i formati, il primo campione subito dopo il pacchetto SAV ha il numero di campione 0, il successivo il numero 1 e così via fino alla parola XYZ del pacchetto SAV seguente. Nella versione SD dell'interfaccia, dove il flusso dati è unico, la numerazione dei campioni segue questo schema:
e così via. Nella versione HD, ogni flusso dati ha la sua numerazione, alternando Y e Y' per ogni campione del flusso Y, e Cb e Cr per ogni campione del flusso C.
La numerazione delle linee è sequenziale, partendo da 1 e fino al numero di linee per quadro del formato indicato (tipicamente 525,625,750 o 1125). La determinazione della linea 1 è in qualche modo arbitraria; tuttavia è indicata dagli standard rilevanti in maniera non ambigua. Nei sistemi a 525 linee, la prima linea dell'intervallo verticale è la linea 1, laddove negli altri sistemi interlacciati (625 e 1125 linee) la prima linea dopo la transizione a zero del bit F è la linea 1.
Si noti che le linee di scansione iniziano in corrispondenza dell'EAV, mentre il campione zero è il campione che segue il SAV. Questo porta a risultati in qualche misura disorientanti, nel senso che il primo campione di una data linea, nel caso di un video 1080i, è il campione numero 1920 (il primo EAV in quel formato), e la linea termina al successivo campione 1919 (l'ultimo campione attivo). Questo comportamento differisce in alcuni aspetti dalle interfacce video analogiche, dove la transizione di linea ovviene con l'impulso di sincronismo, più o meno a metà della regione di cancellazione orizzontale.
La numerazione del link trova applicazione solo sull'interfaccia dual link. Il primo link (il cosiddetto primario) ha assegnato il numero 1, mentre i seguenti hanno numeri crescenti. In questo modo il secondo link (secondario) in un sistema dual link è il numero 2. Il numero di link di una data interfaccia è indicato da un pacchetto VPID situato nello spazio dati ausiliari verticale.
Come lo SMPTE 259M, lo SMPTE 292M supporta lo SMPTE 291M per i dati ausiliari. Si tratta di un sistema standardizzato per il trasporto di dati non video in un segnale digitale seriale, utilizzato per audio integrato, sottotitoli, timecode e altri tipi di metadati. I dati ausiliari sono indicati da un pacchetto di 3 parole consistente in 0, 3FF, 3FF (l'opposto dell'intestazione del pacchetto di sincronizzazione), seguito da un codice di identificazione di due parole, una parola di conteggio dati (che indica un segnale attivo di 0-255 parole), il segnale attivo vero e proprio e un checksum di una parola. Al di là del loro uso nell'intestazione, i codici proibiti nel video attivo sono proibiti anche nel segnale attivo dei dati ausiliari.
Applicazioni specifiche includono audio, integrato, EDH, VPID e SDTI.
Sia la versione SD che quella HD dell'interfaccia contengono 16 canali di audio integrato. È utile notare, ai fini letterari, che il termine inglese embedded viene spesso reso in italiano come "embeddato", seguendo un'usanza tipica dei termini tecnici.
Le due interfacce usano un differente metodo di incapsulamento, rispettivamente lo SMPTE 272M per la SD e lo SMPTE 299M per la HD. In ognuno dei due casi, un segnale SDI può contere fino a sedici canali (8 coppie) di audio digitale a 48 kHz, 24 bit, insieme al video. Normalmente viene usato audio PCM a 48 kHz a 24 bit (20 nella versione SD), in una maniera direttamente compatibile con l'interfaccia audio digitale AES3. I canali audio sono posizionati nei periodi di cancellazione orizzontale, dove il segnale SDI non contiene niente di utile, poiché l'apparato ricevente rigenera i propri sincronismi dal TRS.
I canali audio sono suddivisi in gruppi, ognuno dei quali è numerato da uno a quattro e contiene quattro canali. La loro numerazione è univoca, per esempio il canale 5 sarà sempre il primo canale del secondo gruppo.
Dal momento che il segnale a definizione standard non contempla checksum, CRC o verifica dell'integrità dei dati, un pacchetto EDH, acronimo di Error Detection and Handling (rilevamento e gestione di errori), può essere posizione opzionalmente nell'intervallo verticale del segnale video. Questo pacchetto include i valori di CRC sia per il video attivo che per l'intero campo (eccetto per quelle linee dove può avvenire la commutazione, e che non dovrebbero contenere nessun dato utile); un'apparecchiatura può calcolare il proprio CRC e confrontarlo con quello ricevuto per rilevare eventuali errori.
L'uso tipico del pacchetto EDH è con l'interfaccia a definizione standard, poiché la presenza di parole CRC nella versione ad alta definizione lo rende non necessario.
I pacchetti VPID (Video Payload Identifier, identificatore del video attivo) stanno divenendo sempre più comuni per identificare il tipo di formato trasmesso dall'interfaccia SDI. Nelle prime versioni, era sempre possibile determinare il formato video contando i numeri di linee e campioni tra le transizioni H e V del TRS. Con l'introduzione delle interfacce dual link e degli standard a quadro segmentato questo non è più possibile. Di conseguenza, lo standard VPID (definito dallo SMPTE 352M) fornisce un modo di identificazione univoca a non ambigua del formato del video attivo.
Sono possibili diverse codifiche dei colori. Il default (e il caso più comune) è un flusso di dati lineari a 10 bit codificati come 4:2:2 YCbCr. (L'YCbCr è la rappresentazione digitale dello spazio colore YPbPr). I campioni di video sono immagazzinati come indicato sopra.
All'interno della parte attiva del video, le parole di dati corrispondono ai livelli dei segnali dei rispettivi componenti di video. Il canale di luminanza (Y) e in definito in maniera tale che al livello di segnale di 0 mV corrisponda la parola chiave 64 (40 in esadecimale), e a 700 mV (il fondo scala) è assegnata la parola chiave 940 (0x3AC). Per i canali di crominanza, a 0 mV corrisponde la parola chiave 512 (0x200), a -350 mV corrisponde 64 (0x40) il fondo scala) e a +350 mV corrisponde 960 (0x3C0). Si noti che la scala dei segnali di luminanza e crominanza non è identica. Il minimo e il massimo di queste forcelle di valori rappresentano i limiti di segnale auspicati, nonostante il video attivo possa essere al di fuori di esse (assumendo, però, che le parole riservate 0-3 e 1020-1023 non siano mai utilizzate per il video attivo). In aggiunta, i corrispondenti segnali analogici possono avere escursioni al di fuori di questa gamma.
Per le porzioni delle cancellazioni verticale e orizzontale che non sono usate per i dati ausiliari, è raccomandato che ai campioni di luminanza sia assegnato il valore 64 (0x40) e a quelli di crominanza 512 (0x200), che corrispondono entrambi a 0 mV. È ammessa la codifica di informazioni sull'intervallo verticale analogico (come il timecode sull'intervallo verticale, o VITC, oppure segnali di test, o VITS) senza che l'interfaccia abbia problemi, ma questo utilizzo non è standard (e i dati ausiliari dovrebbero essere comunque il modo preferito per trasmettere metadati). La conversione di sincronismi e segnali di burst analogici in digitale, tuttavia, non è raccomanda, e neppure necessaria sull'interfaccia digitale.
Dal momento che gli spazi colore YPbPr e YCbCr derivano entrambi dallo spazio RGB, è necessario un mezzo di conversione. Esistono tre colorimetrie normalmente usate per il video digitale:
Le interfacce dual-link e 3 Gbit/s supportano l'uso di altri schema di codifica colore oltre al 4:2:2 YCbCr:
Se viene usata una codifica RGB, i tre primari sono tutti codificati allo stesso modo del canale Y; un valore di 64 (40 hex) corrisponde a 0 mV, e 940 (3AC hex) corrisponde a 700 mV.
Le applicazioni a 12 bit sono scalate come quelle a 10, i due bit aggiuntivi sono considerati LSB.
Le varie versioni dell'interfaccia digitale seriale supportano numerosi formati video.
I fotogrammi segmentati contengono video a scansione progressiva suddiviso in due semiquadri segmentati. Questo sistema viene utilizzato per supportare monitor e TV analogici, la maggior parte dei quali non è in grado di agganciarsi a frequenze di quadro basse come 24 e 30 Hz. Inoltre è di un certo impiego per produzioni a scansione progressiva utilizzando apparecchiature che supportano solo i formati interlacciati.
In aggiunta all'interfaccia qui descritta, ci sono diverse altre interfacce che presentano delle somiglianze, o che sono contenute al suo interno.
Esiste una specifica espansa chiamata SDTI (Serial Data Transport Interface), che permette a flussi video compressi (per esempio Digital Video, MPEG e altri) di essere trasportati tramite una linea SDI. Questo consente flussi video multipli in un unico cavo, oppure trasmissione video a velocità superiore al tempo reale (2x, 4x, ...). Uno standard correlato, conosciuto come HD-SDTI, fornisce capacità simili su un'interfaccia SMPTE 292M.
L'interfaccia SDTI è definita dalle specifiche SMPTE 305M, la HD-SDTI dalle specifiche SMPTE 348M.
Lo standard SMPTE 349M: Transport of Alternate Source Image Formats through SMPTE 292M specifica un metodo per l'incapsulamento di formati video non standard o a basso bitrate all'interno di un'interfaccia HD-SDI. Questo standard permette, per esempio, diversi segnali video indipendenti a definizione standard miscelati insieme all'interno di un unico segnale HD-SDI, trasmesso attraverso un unico cavo. Questo standard non si limita alla semplice correzioni delle temporizzazioni SAV e EAV per corrispondere ai formati a più basso bitrate; fornisce al suo posto un mezzo tramite il quale un'intera interfaccia SDI (incluse parole di sincronizzazione, dati ausiliari e video attivo) può essere incapsulata e trasmessa come video attivo convenzionale in un flusso 292M.