Mauro Graziani

Il rapido sviluppo dell'audio digitale ha originato anche una babele di formati per la creazione di file sonori, spesso fra loro incompatibili. Una recente ricerca ne ha contati più di un centinaio. L'introduzione dell'audio sui personal computer, infatti, è avvenuta senza una preventiva programmazione, né poteva essere altrimenti: il nostro modello di sviluppo industriale è basato sulla competizione ed è, quindi, nemico della cooperazione e della condivisione della conoscenza. Per queste ragioni, quando si sviluppa qualcosa di completamente nuovo che non deve preservare il materiale già installato, si assiste sempre all'apparizione di una serie di formati proprietari, alcuni dei quali durano lo spazio di un mattino, mentre altri riescono ad imporsi in funzione non tanto della loro intelligenza e completezza, quanto della potenza commerciale del produttore.
Solo quando il mercato si è relativamente stabilizzato si arriva ad una generalizzazione dei formati adottando (a) il formato del vincitore, per quanto stupido possa essere, oppure, (b) se appare chiaro che nessuno ha vinto, si nomina una commissione il cui scopo è quello di mediare le esigenze dei produttori rimasti in lizza tenendo in poco o nessun conto la materia grigia (il protocollo MIDI ne è un esempio lampante).

1. Caratteristiche

Che cos'è un formato? Semplicemente un modo di disporre i dati e, per estensione, di codificarli. Qualsiasi tipo di file scritto su disco è caratterizzato da due cose:

il modo in cui i dati sono codificati (determinato dal cosiddetto codec, cioè l'algoritmo di codifica);
la scatola che li contiene, cioè il formato.

Volendo essere rigorosi, quindi, il formato è soltanto il modo in cui i dati sono organizzati e disposti, NON il modo in cui sono codificati.
Per esempio, il ben noto WAV specifica che i campioni audio devono essere raggruppati in blocchi (detti chunks), in genere di uguale lunghezza. Questo è il formato: un file wav, quindi, è formato da piccoli blocchi di campioni disposti in sequenza come i vagoni di un treno. Di conseguenza, un programma che legge un wav non legge il singolo campione, ma carica un blocco alla volta.
All'interno di questi blocchi, poi, i campioni possono essere codificati in vari modi: PCM o ADPCM, a 8 o 16 bit, con varie frequenze di campionamento eccetera. Se, infatti, andate a vedere la lista dei formati gestiti da un software di elaborazione audio professionale, come CoolEdit (che ormai è diventato Adobe Audition), noterete che, scegliendo 'Save As' e aprendo la lista dei formati, trovate diversi tipi di wav: il formato è lo stesso, ma cambia il codec.
Inoltre, un formato, di solito, definisce anche una serie di informazioni che riguardano il contenuto del file. Il punto è che non è pratico memorizzare i campioni sonori su disco senza alcun dato di contorno. Per poter suonare correttamente un file, infatti, i player devono conoscere almeno l'SR, il formato dei campioni e il numero di canali. Di conseguenza, ai campioni veri e propri viene anteposto un header (testata) che contiene questi valori e a volte, molti altri dati, compreso titolo, autore e copyright.
Esistono almeno 3 tipologie di formato:

Formati che contengono effettivamente l'audio sotto forma di onda sonora campionata che viene riprodotta mediante un convertitore DAC e un semplice programma in grado di inviare i campioni al convertitore. La qualità della riproduzione, quindi, dipende solo dal sistema di conversione.
Questi file possono essere compressi o meno e sono sia mono che multicanale. In quest'ultimo caso, i vari canali sono interlacciati (interleaved): abbiamo, cioè, un piccolo blocco di campioni del canale 1 seguito da uno di uguale lunghezza del canale 2 e così via. (Es.: file WAV, AU, AIFF).

Formati che non contengono l'audio, ma solo i dati di controllo per crearlo. Il suono vero e proprio viene, poi, creato in locale da un sintetizzatore esterno o residente sulla scheda audio, oppure da un sistetizzatore virtuale (emulato via software). Di questa categoria fanno parte, ormai, solo i MIDI file.
Nonostante il MIDI preveda la standardizzazione dei timbri strumentali (standard GS/GM), la qualità della riproduzione dipende strettamente dal sintetizzatore utilizzato. Lo standard GS/GM, infatti, indica solo il tipo di suono da utilizzare (es.: pianoforte), non la sua qualità. Che quest'ultimo sia buono o meno, poi, dipende solo dal sintetizzatore locale. Così come una partitura può sembrare più o meno bella in base agli esecutori, un file di questo tipo, da bellissimo può diventare orrendo se viene sintetizzato con suoni pessimi.

La terza categoria incorpora alcune caratteristiche di entrambe le precedenti ed è quella dei formati che contengono sia i campioni sonori che i dati di controlli per utilizzarli. L'esempio tipico è quello dei file MOD, alla cui descrizione vi rimandiamo.

2. Formati

Formati audio di 1a categoria lineari (non compressi)

u-law Estensioni: AU, SND

Il formato u-law (pronunciato mu law in quanto la ‘u' iniziale altro non è che una semplificazione del nome originale con l'iniziale greca µ-law) è originario dei sistemi Sun e NeXT per cui è noto anche come NeXT/Sun format ed è uno dei tipi di file più frequentemente utilizzati su Internet (generalmente con estensione .AU perché .SND è ambigua) in quanto su tutte le piattaforme esistono ormai piccoli programmi che riproducono questo formato.
La qualità di questi campioni è però piuttosto bassa: nonostante il formato supporti un SR anche di 22050 e 44100, di solito si utilizza 8K che equivale alla banda di una buona linea telefonica. In compenso, i file hanno dimensioni decisamente ridotte rispetto agli equivalenti con SR più alto e quindi si scaricano più facilmente via rete. Proprio per questa ragione alcuni archivi sonori dispongono di file in due formati: il formato AU è usato per un download veloce, magari per effettuare un pre-ascolto, prima di lanciarsi in un lungo download del file equivalente, ma ad alta qualità, in un altro formato.

Audio Interchange File Format Estensioni: AIF, AIFF

L'Audio Interchange File Format è di origine Apple (1985) e consente la memorizzazione di campioni mono o multicanale a 8 o 16 bit e varie frequenze di campionamento. Trattandosi di un formato elaborato per essere portabile, può essere anche facilmente convertito (come vedremo, il RIFF Microsoft è simile) e quindi viene utilizzato spesso.

RIFF WAVE Estensioni: WAV

Elaborato da Microsoft e IBM nel 1992, il RIFF WAVE (il cui nome completo è Resource Interchange File Format Waveform Audio Format) segue le specifiche del più generale Rich Information File Format. É stato introdotto a partire da Windows 3.1 ed è diventato in breve il formato più diffuso per le applicazioni su PC. I file WAV supportano varie tipologie di campionamento: sono mono o multicanale, 8 o 16 bit a diversi sampling rate con vari sistemi di codifica anche se i più diffusi sono il PCM e l'ADPCM. Qui trovate le specifiche tecniche del formato WAV.

Creative Voice Estensioni: VOC

Il VOC è il formato proprietario della Creative Lab, produttore della Sound Blaster. Questo formato supporta solo 8 bit mono con SR fino a 44.1 kHz e stereo con SR fino a 22 kHz.

Amiga Interchange File Format Estensioni: IFF

IFF/8SVX è il formato standard dei computer Amiga. È simile all'AIFF, ma supporta solo campioni a 8 bit. Raramente usato fuori dal mondo Amiga. Amiga è scomparso, ma sono rimasti i file.

Macintosh SND Estensioni: SND

Questa estensione è ambigua in quanto viene utilizza anche dai già visti file di formato u law. SND è in realtà l'estensione dei file di sistema Macintosh, ma anche alcuni vecchi software per PC la usano. I file del vecchio Mac, comunque, potevano avere vari SR, da 5.5 a 22 kHz, anche se il più usato era 11 kHz. Questi file sono del tipi AIFF o AIFC e venivano riprodotti direttamente dall'hardware sonoro del computer con il System 7 (sono di tipi SFIL, per sound file, nel resource fork). Raramente usati fuori dal mondo Mac.

RAW pcm Estensioni: PCM, SND

File di campioni con semplice codifica PCM senza header. Raramente usati se non come file temporanei o per specifiche applicazioni.

Formati audio di 2a categoria

MIDI file Estensioni: MID, MIDI

Come già accennato, i MIDI file non contengono audio, ma solo dati di controllo che istruiscono un sintetizzatore MIDI locale, interno o esterno, ad eseguire determinate azioni tipo “suona una certa nota”, “ferma una nota”, “applica un vibrato”, ecc. Lo standard MIDI file è stato creato nel 1983 dalla MIDI Manufacturer Association, un gruppo di costruttori di strumenti musicali elettronici, che è anche responsabile del suo aggiornamento.
Questi file sono largamente disponibili su Internet e tutte le piattaforme sono ormai in grado di riprodurli senza munirsi di software aggiuntivo, a patto, ovviamente, di possedere un sintetizzatore MIDI virtuale oppure reale su scheda o esterno.
Qui trovate un approfondimento e le specifiche tecniche. Questo invece è il sito ufficiale della MMA.

Formati audio di 3a categoria

Moduli Estensioni: MOD (Protracker), XM (Fasttracker), IT (Impulse Tracker), S3M (ScreamTracker) e altri

I file MOD possono essere considerati come un formato di incrocio fra la 1a e la 2a categoria. Il loro formato è simile a quello dei MIDI file (sono cioè composti di dati di controllo e non di audio vero e proprio), con la differenza che contengono anche i timbri strumentali con cui effettuare l'esecuzione sotto forma di un banco di suoni campionati. I dati di controllo, poi, pilotano l'esecuzione che deve essere effettuata con questi timbri. Nella prima versione i campioni erano a 8 bit.
I file MOD sono originari dell'Amiga, ma hanno avuto una certa diffusione grazie soprattutto alle dimensioni contenute rispetto a un file audio totalmente campionato e al fatto che l'esecuzione viene sempre effettuata con i timbri originali ovviando, così, ai problemi di differenze timbriche dei MIDI file. Sono nati, così, vari formati che riprendono e sviluppano l'idea dei MOD.

3. Compressione

Le compressioni sono sistemi per ridurre la dimensione di un file mediante l'applicazione di vari tipi di algoritmi e/o codifiche.
Si distinguono due tipi di compressione: loseless (senza perdita) in cui il file viene compresso senza eliminare nessuna informazione e la sua decompressione permette, quindi, di riavere esattamente l'originale e lossy (con perdita) in cui la compressione elimina parti considerate ridondanti o ininfluenti e la decompressione non riporta all'originale.
Chiaramente, il primo sistema preserva l'integrità dell'originale, ma comprime meno, mentre il secondo comporta una perdita di qualità ma comprime molto di più, proporzionalmente al livello di perdita che si è disposti ad accettare. Vediamo qualche esempio.

Compressione loseless

Le compressioni loseless si basano sulla riduzione della ridondanza tipica delle produzioni umane.
Per esempio, in un libro dedicato alla musica sperimentale, la locuzione "musica sperimentale", lunga 19 caratteri, sarà ripetuta molte volte. A questo punto, basta sostituirla con un simbolo che normalmente non si trova in un testo, come per es. '#1#', per ridurre un termine di 19 caratteri a uno di 3, risparmiando 16 caratteri per ogni occorrenza. In realtà bisogna dire "per ogni occorenza oltre la prima", perchè, per poter poi decomprimere il testo, bisogna costruire anche un indice delle sostituzioni in cui, in questo caso, sarà scritto
#1#="musica sperimentale".
Ovviamente, nel libro, anche molte altre parole o insiemi di esse saranno ripetute più volte, e ognuno di essi potrà essere sostituito da un simbolo come #2#, #3#, ... , #n#, dove n è un numero progressivo, ottenendo alla fine un risparmio notevole.
Un sistema analogo è utilizzato dall'algoritmo di Lempel-Ziv (LZ) i cui derivati sono alla base di molti dei moderni programmi di compressione loseless, compreso il notissimo ZIP.
In realtà l'antenato di molti codificatori loseless è la cosiddetta Codifica di Huffman. Si tratta di un sistema di eliminazione della ridondanza sviluppato nel 1952 dal ricercatore omonimo, allora studente al MIT. Il suo algoritmo risolve il problema di codificare una serie di stringhe (stringa = un qualsiasi insieme di caratteri) nel modo più compatto possibile, tenendo conto anche della frequenza con cui le stringhe si presentano: a quella più frequente viene assegnato il simbolo più breve in modo da massimizzare la compressione. Qui trovate un buon esempio che approfondisce le problematiche legate alla Codifica di Huffman.

Un altro tipo di compressione loseless, basato sempre sulla riduzione della ridondanza, è il cosiddetto Run Length Encoding (RLE) che funziona in modo molto semplice. Supponiamo di avere la seguente stringa di 20 caratteri

ABBBBBBBBBCDEEEEFGGG

Applicando la RLE, diventa

A*9BCD*4EF*3G

per un totale di 13 caratteri, con un risparmio del 35%.
In pratica, al posto dei caratteri ripetuti è stato inserito un codice formato dal carattere e dal numero delle ripetizioni. L'asterisco serve a indicare che quello che segue è il numero delle ripetizioni e non fa parte della stringa (naturalmente questo è il principio base; i particolari della codifica possono variare).
Chiaramente questo sistema non è produttivo con i testi, ma lo è nel caso delle immagini in cui lunghe striscie di pixel con lo stesso colore sono abbastanza frequenti.

Compressione lossy

La compressione lossy si basa sull'eliminazione di quelle componenti dell'informazione ritenute più o meno ininfluenti in base al livello di compressione richiesto. A bassi livelli di compressione verranno eliminati solo i particolari realmente ininfluenti, mentre a livelli più alti cambieranno anche particolari sensibili.
Un esempio non audio è la codifica delle immagini JPEG che elimina le sfumature dando a gruppi di pixel vicini lo stesso colore se la loro differenza è inferiore a un valore proporzionale al livello di compressione. In questa pagina potete osservare l'effetto di riduzione delle dimensioni e la corrispondente perdita di qualità a livelli di compressione via via crescenti.

Maggiori particolari sulle compressioni possono essere trovati su Wikipedia, qui in inglese. Wikipedia esiste anche in italiano, ma il contenuto è più ridotto.

Formati audio di 1a categoria compressi

Lossless (senza perdita)

Questi formati lavorano in modo analogo allo zip. Comprimono il contenuto senza eliminare nulla. Al momento dell'ascolto bisogna effettuare una decompressione ritornando all'originale in uno dei formati lineari già visti.
Trattandosi di compressione lossless, il confronto fra questi codec non si fa sulla qualità (tutti restituiscono l'originale), ma sul livello di compressione e sulla velocità di codifica/decodifica. Come ci si poteva aspettare, i risultati mostrano che le due cose sono inversamente proporzionali.

APE (Monkey Audio)

Permette di ridurre di circa il 50% lo spazio occupato dal suono (in certi casi anche di più).

FLAC (Free Lossless Audio Codec)

Formato Open Source, di grande popolarità. Il più diffuso insieme al formato ape di Monkey Audio che comprime un po' di più, per quanto FLAC abbia dalla sua una velocità di codifica e soprattutto di decodifica decisamente maggiori.

LA (Lossless Audio)

Il formato lossless che comprime di più. La conversione in questo formato è lentissima, però ottiene la migliore compressione in assoluto. E' poco diffuso, dato che qualche Mb guadagnato non vale le lunghe attese in più (e un minor supporto da programmi terzi).

Test fatti con 10 CD che spaziano dal jazz al metal (NON però con musica classica), mostrano che, fatto 100 il totale da comprimere, si ottengono i seguenti risultati:
LA comprime a 55.5 con velocità 2.5,
APE in modalità extra-high comprime a 56.4 con velocità 8.8
APE in modalità normale comprime a 57.3 con velocità circa 17
FLAC comprime a 59.8 con velocità 20 in codifica e ben 44 in decodifica.

Lossy (con perdita)

Come già detto, nella compressione lossy alcuni particolari vemgono eliminati. Al momento della decompressione, quindi, non si ottiene più il file originale e non c'è alcun modo per recuperarlo.
Il primo termine di giudizio, quindi, è la qualità acustica. Il problema di ogni valutazione è che, tranne casi eclatanti ad alti livelli di compressione, non ci sono modi numerici per decidere chi è il migliore, ma, dato che le differenze possono essere minime, bisogna fare i conti almeno con:

il genere musicale
la cultura dell'ascoltatore
le preferenze dell'ascoltatore
le modalità di ascolto
la qualità dell'impianto di ascolto

Per fare un esempio estremo, è chiaro che se il mio fruitore-tipo è quello che ascolta heavy metal in macchina, posso permettermi di più rispetto a un ascoltatore di musica classica in sala insonorizzata.
Passiamo alla descrizione dei singoli formati.

AIFF Compresso Estensioni: AIFC

Già molti anni fa Apple ha introdotto il formato AIFC che è la versione compressa del già citato AIFF. Il rapporto di compressione raggiunge 6:1, ma a prezzo di perdita di qualità sensibile del segnale. Rapporti come 2:1 o al limite 3:1 danno buoni risultati anche su suoni complessi. La maggior parte delle applicazioni che leggono gli AIFF sono usabili anche per gli AIFC.

MPEG Estensioni: MPEG, MPG, MP1, MP2, MP3

La codifica MPEG è, in verità, più nota per i file video, ma poiché ai video di solito si accompagna un audio, il Moving Picture Expert Group (MPEG, appunto) cha fa parte dell'ISO/IEC (International Standards Organization/International Electrotechnical Commission, una organizzazione internazione che promuove standard in vari campi industriali) ha definito le specifiche di uno dei più popolari sistemi di memorizzazione e compressione dell'audio fra quelli utilizzati in Internet attualmente.
In realtà, le ricerche per un algoritmo di compressione audio con prestazioni elevate e alta qualità erano iniziate già nel 1987 al Fraunhofer Institut in Germania, con il nome in codice EUREKA project EU147, Digital Audio Broadcasting (DAB).
Nel 1988 si insedia l'MPEG come sottogruppo dell'ISO dedicato agli standard audio/video. In questa sede, l'italiano Leonardo Chiariglione inizia la definizione di uno standard di compressione audio. Le istanze dell'ISO e le realizzazioni Fraunhofer, che nel frattempo aveva brevettato il proprio algoritmo, si incontrano e nel 1992 queste ultime vengono integrate nelle specifiche dell'MPEG-1 che esce nel 1993.

I file audio MPEG possono essere di tre tipi diversi ognuno dei quali ha le proprie specifiche. I livelli più elevati impiegano un tempo di codifica/decodifica maggiore, ma comprimono di più senza sacrificare la qualità audio.
Ogni standard può avere diversi layers (chiamati impropriamente "livelli") che rappresentano ciascuno una famiglia di algoritmi di codifica, contrassegnati da un numero romano: Layer I, Layer II, Layer III. Quelli maggiormente utilizzati per l'audio sono stati sviluppati nell'ambito del protocollo MPEG 1 e sono comunemente noti com MP1, 2 o 3 (in realtà il loro nome è MP1 layer I, II o III).

La compressione è basata su modelli psico-acustici che operano in modo simile al ben più noto JPEG sviluppato per le immagini. Il livello MPEG 2 comprime oltre 5:1 e può arrivare a 12:1 senza perdere qualità in modo apprezzabile anche se, come nel caso del JPEG, il risultato dipende dalla complessità del file di partenza (da notare che questi risultati non sono eccezionali se comparati a quelli video dove si arriva a 26:1).

Gli impieghi dell'MPEG, comunque, vanno oltre Internet: Philips lo utilizza per il video CD ed è usato anche in numerose radio digitali. I lettori sono stati sviluppati per tutte le piattaforme e sono gli stessi che leggono i file video.

Vi diamo qui le caratteristiche dei 3 formati:

Layer I

Compressione 1:4
Bitrate 384 Kb/s
Usato nei Philips DCC e nei sistemi digitali professionali. Adotta esclusivamente il metodo di eliminazione delle frequenze mascherate derivato dagli studi di psicoacustica. Ciò significa che elimina quelle frequenze che vengono nascoste dietro ad altre più presenti (masking).

Layer II
Compressione da 1:6 a 1:8
Adotta metodi di filtraggio del segnale audio molto più spinti rispetto al primo modello. E' stato migliorato il metodo della scelta e della eliminazione delle frequenze non necessarie. Codificando a 160 Kb/s si ottiene un buona qualità di suono; a 192 Kb/s si arriva vicini all'originale; a 256 Kb/s risulta difficile notare la differenza dall'originale.

Layer III
Compressione da 1:10 a 1:13
È il più complesso fra i modelli MPEG per l'audio. Non solo adotta filtraggi più massicci rispetto al Layer II, ma utilizza anche un coder estremamente complesso (Huffmann). Codificando il segnale a 128 Kb/s si ottiene un suono sufficientemente buono; a 160 Kb/s si è molto vicini all'originale; a 192 Kb/s e oltre, è difficile percepire differenze con l'originale.

La pagina web ufficiale pubblica i sequenti tassi di compressione per l’MPEG-1 Layer 1,2 e 3.

Layer 1: 384 kbit/s, compressione 4:1
Layer 2: 192...256 kbit/s, compressione 6:1...8:1
Layer 3: 112...128 kbit/s, compressione 10:1...12:1

Questi sono valori piuttosto aleatori in quanto:

La qualità dipende non solo dal formato di codifica del file, ma anche dalla qualità psico acustica del codificatore. Il codificatore tipico layer 1 usa un modello psicoacustico molto elementare che finisce per richiedere molti più bit per un risultato soddisfacente.
La codifica Layer 1 a 384 kbit/s è migliore della codifica Layer 2 a 192 … 256 kbit/s.
La codifica Layer 3 a 112 … 128kbit/s è peggiore del Layer 2 a 192 … 256 kbit/s

Un modo più realistico per considerare il bitrate è:

Layer 1: eccellente a 384 kbit/s
Layer 2: eccellente a 256...320 kbit/s, molto buono a 224...256 kbit/s, buono a 192...224 kbit/s, non si dovrebbe usare sotto i 160 kbit/s
Layer 3: eccellente a 224...256 kbit/s, molto buono a 192...224 kbit/s, buono a 160...192 kbit/s, non si dovrebbe usare sotto i 128 kbit/s

Qui trovate una trattazione dettagliata dell'MP3 in italiano (curata dal sottoscritto).

MP3Pro

MP3Pro, di Thomson Multimedia, è in realtà una combinazione di MP3 e SBR (spectral band replication).
Questa tecnologia codifica a parte (cioè in flussi diversi) le componenti a bassa e ad alta frequenza del segnale che viene, così, suddiviso in due parti prima del trattamento. In tal modo ognuna delle due parti viene codificata in modo adeguato ottenendo una qualità migliore, ma anche file leggermente più grossi.

MusePack (MPC noto anche come MP+)

Formato di altissimi risultati (secondo il produttore), soprattutto a bitrate alti (oltre 192 kbps e oltre). Effettivamente, su alcuni brani i risultati sono migliori (più cristallini) dell'mp3 a bitrate costante, soprattutto a bitrate medio/alti (192 kbps).
Sono in molti a considerarlo il miglior formato audio lossy, ma in effetti MPC ha risultati migliori perché utilizza il bitrate variabile (VBR) che lui chiama CVD (crystal voice detection) quindi è ovvio che vinca facilmente se confrontato all'MP3 con bitrate fisso. In realtà si dovrebbero fare test per confrontarlo con un MP3 a bitrate variabile.
Sito MusePack

OGG VORBIS

Prende questo nome perché incapsula il codec Vorbis nel formato Ogg. Sia Vorbis che Ogg sono open source e sono stati creati dalla Xiph.Org Foundation nel 1998 quando sembrava che Fraunhofer Gesellschaft volesse imporre il pagamento dei deritti per l'uso dell'MP3.
Xiph.Org Foundation è una organizzazione non profit che si dedica allo sviluppo di formati multimediali di pubblico dominio, per evitare che l'applicazione dei diritti derivanti dai copyright sui formati possa soffocare la condivisione della conoscenza.
Ogg Vorbis è un ottimo codec open source. Riesce a dare risultati migliori dell'mp3 soprattutto a bitrate bassi (maggior qualità in minor spazio), cioè inferiori a 128 kbps. Proprio per questa ragione la tecnologia Vorbis viene impiegata anche da parecchi grandi produttori di videogames al posto dell'MP3 per evitare eventuali richieste di diritti da parte di Fraunhofer Gesellschaft.

WMA

Formato windows media audio, compresso e molto simile a un mp3. Formato di compressione audio proprietario Microsoft.
I file compressi in questo formato sono di circa il 20 % più piccoli degli Mp3 con qualità generalmente inferiore. Il codec WMA è incapsulato in un ASF, per cui l'estensione può anche essere quest'ultima. In genere si usa WMA quando il contenuto è solo audio. Altri particolari su wikipedia.

AAC

L'Advanced Audio Coding (AAC) usato nell'Apple I-Pod è uno schema di compressione che fa parte delle specifiche del MP4 le cui specifiche a livello progettuale sono uscite in ottobre 2004. Ecco le sue caratteristiche come dichiarate dal produttore:

Sample frequencies from 8 kHz to 96 kHz (official MP3: 16 to 48 kHz)
Up to 48 channels
Higher coding efficiency for stationary signals (blocksize: 576 -> 1024 samples)
Higher coding efficiency for transient signals (blocksize: 192 -> 128 samples)
Much better handling of frequencies above 16 kHz
More flexible joint stereo (separate for every scale band)

AAC takes a modular approach to encoding. Depending on the complexity of the bitstream to be encoded, the desired performance and the acceptable output, implementers may create profiles to define which of a specific set of tools they want use for a particular application. The standard offers four default profiles:

Low Complexity Profile (LC) - the simplest and most widely used and supported.
Main Profile (MAIN), which expands upon LC with backwards prediction.
Sample-rate Scalable (SRS), also called Scalable Sample Rate (MPEG-4 AAC-SSR).
Long Term Prediction (LTP), added in MPEG-4, an improvement of the MAIN profile using a forward predictor with lower computational complexity

Depending on the AAC profile and the MP3 encoder, 96 kbit/s AAC can give nearly the same or better perceptional quality as 128 kbit/s MP3.

Streaming audio

RAM, RM, ASF, ASX

Lo streaming è la trasmissione in rete dei dati audiovisivi in tempo reale; tutto questo senza tempi di attesa derivanti dal download completo del file sull’hard disk del computer. Con lo streaming, infatti, non viene scaricato l’intero file audio prima di consentirne l’ascolto, ma la riproduzione inizia per ogni blocco di due secondi di ascolto; nel frattempo viene scaricato il successivo. Si possono verificare momentanee interruzioni nella riproduzione, nel caso in cui il traffico nella rete risulti congestionato.
Questo sistema di trasmissione è possibile con modem da 28.8 kbit/sec in su. In base alle capacità di collegamento dell’utente, è possibile selezionare le diverse qualità di suono.
Le due principali tecnologie di audio streaming utilizzate sono Real (attraverso il plugin real player), e Windows Media (Windows Media player).
Real Technologies ha iniziato a promuovere tecnologie di streaming audio (e successivamente video), per mezzo di piccoli files con estensione ram o rm con banda di trasmissione che arriva fino a 56Kbit/sec. Windows Media (Microsoft) utilizza una soluzione per lo streaming basata sui file Asf e Asx con una banda abbastanza ristretta (15-25 kbit/sec) e qualità inferiore.
La tecnologia dello streaming audio ha permesso alle principali emittenti radiofoniche di presentare sui propri siti web i loro programmi trasmessi via etere, cosicché chiunque sul globo terrestre potesse ricevere una trasmissione “radio” dal pc. Nascono anche le radio “web only”, non presenti via etere, ma solo sul web.

DAB: Digital Audio Broadcasting

è un sistema di trasmissione di segnali radio digitali via etere. Il DAB si bassa su un algoritmo di compressione audio simile a MP3 ma evoluto per la trasmissione di bouquet di pacchetti che permettono all’emittente di presentare più di una versione dei suoi programmi. La qualità della trasmissione è variabile a seconda della banda occupata. Durante la trasmissione vengono usati i codici CRC per correggere errori e mantenere la trasmissione a un elevato livello qualitativo anche in condizione di ricezioni non ottimali.

Tabella SR

La seguente tabella riporta vari SR ancora più o meno in uso.

Freq.	Uso	Note
8000	Standard telefonico usato nei file con codifica u law e nel formato proprietario NeXT/Sun	In realtà il NeXT usava 8012.8210513 che sembra essere anche la frequenza del CODEC Telco
11k	In realtà 11025: un quarto del sampling rate del CD	Metà della frequenza standard del primo Mac, era utilizzata nelle vecchie applicazioni multimediali per Macintosh. In realtà era 11127.27272...
16000	Usata da parecchi sistemi di compressione standard come il CCITT G.722
18.9k	Standard CD-ROM/XA (qualità normale)
22k	In realtà 22050, metà del sampling rate del CD	La frequenza standard del primo Mac che però era in realtà 22254.5454... ed è spesso citata erroneamente come 22000
24k	Usata nello schema di compressione CCITT G.723
32000	Usata nelle radio digitali NICAM (Nearly Instantaneous Compandable Audio Matrix), IBA/BREMA/BBC, nella giapponese HDTV e nello schema di compressione CCITT G.721
37.8k	Standard CD-ROM/XA (alta qualità)
40K	Usata nello schema di compressione CCITT G.723
44056	Assurdo SR usato da dispositivi professionali per piazzare un numero intero di campioni audio in un frame video.
44100	Standard CD
48000	Standard DAT
96000	Standard proposto per il DVD audio
176400	Standard equivalente Super Audio CD (SACD)	In realtà il SACDutilizza una tecnologia chiamata DSD (direct stream digital) che funziona in modo diverso dal PCM ed è una versione estrema del vecchio campionamento delta-sigma. L'SR è 2882400 a 1 bit con accumulazione.

Index

Back

Docente di Musica Elettronica presso il Conservatorio F.A. Bonporti - Trento

0. Introduzione