Il
rapido sviluppo dell'audio digitale ha originato anche una babele di
formati per la creazione di file sonori, spesso fra loro
incompatibili. Una recente ricerca ne ha contati più di un
centinaio. L'introduzione dell'audio sui personal computer, infatti,
è avvenuta senza una preventiva programmazione, né
poteva essere altrimenti: il nostro modello di sviluppo industriale è
basato sulla competizione ed è, quindi, nemico della
cooperazione e della condivisione della conoscenza. Per queste
ragioni, quando si sviluppa qualcosa di completamente nuovo che non
deve preservare il materiale già installato, si assiste sempre
all'apparizione di una serie di formati proprietari, alcuni dei quali
durano lo spazio di un mattino, mentre altri riescono ad imporsi in
funzione non tanto della loro intelligenza e completezza, quanto
della potenza commerciale del produttore.
Solo quando il mercato si
è relativamente stabilizzato si arriva ad una generalizzazione
dei formati adottando (a) il formato del vincitore, per quanto
stupido possa essere, oppure, (b) se appare chiaro che nessuno ha
vinto, si nomina una commissione il cui scopo è quello di
mediare le esigenze dei produttori rimasti in lizza tenendo in poco o
nessun conto la materia grigia (il protocollo MIDI ne è un
esempio lampante).
1. Caratteristiche
Che cos'è un formato? Semplicemente un modo di disporre i dati
e, per estensione, di
codificarli. Qualsiasi tipo di file scritto su disco è caratterizzato
da due cose:
- il modo in cui i dati sono codificati (determinato dal cosiddetto
codec, cioè l'algoritmo di codifica);
- la scatola che li contiene, cioè il formato.
Volendo essere rigorosi, quindi, il formato è soltanto il modo in cui i
dati
sono organizzati e disposti, NON il modo in cui sono codificati.
Per esempio, il ben noto WAV specifica che i campioni audio devono
essere raggruppati in blocchi (detti chunks), in genere di uguale
lunghezza. Questo è il formato: un file wav, quindi, è formato da
piccoli blocchi di campioni disposti in sequenza come i vagoni di un
treno. Di conseguenza, un programma che legge un wav non legge il
singolo campione, ma carica un blocco alla volta.
All'interno di questi blocchi, poi, i campioni possono essere
codificati in vari modi: PCM o ADPCM, a 8 o 16 bit, con varie frequenze
di campionamento eccetera. Se, infatti, andate a vedere la lista dei
formati gestiti da un software di elaborazione audio professionale,
come CoolEdit (che ormai è diventato Adobe Audition), noterete che,
scegliendo 'Save As' e aprendo la lista dei formati, trovate diversi
tipi di wav: il formato è lo stesso, ma cambia il codec.
Inoltre, un formato, di solito, definisce anche una serie di
informazioni che riguardano il contenuto del file. Il punto è che non è
pratico memorizzare i campioni sonori
su disco senza alcun dato di contorno. Per poter suonare correttamente
un file, infatti, i player devono conoscere almeno l'SR, il formato
dei campioni e il numero di canali. Di conseguenza, ai campioni veri e
propri
viene anteposto un header (testata) che contiene questi valori e
a volte, molti altri dati, compreso titolo, autore e copyright.
Esistono almeno 3 tipologie di formato:
- Formati che contengono effettivamente l'audio sotto forma di onda
sonora campionata che viene riprodotta mediante un convertitore DAC e
un semplice programma in grado di inviare i campioni al convertitore. La qualità della riproduzione, quindi,
dipende solo dal sistema di conversione.
Questi file possono essere compressi o meno e sono sia mono che
multicanale.
In quest'ultimo caso, i vari canali sono interlacciati (interleaved):
abbiamo, cioè, un piccolo blocco di campioni del canale 1 seguito da
uno di uguale lunghezza del canale 2 e così via. (Es.:
file WAV, AU, AIFF).
- Formati che non contengono l'audio, ma solo i dati di controllo
per crearlo. Il suono vero e proprio viene, poi, creato in locale da un
sintetizzatore esterno o residente sulla scheda audio, oppure da un
sistetizzatore virtuale (emulato via software). Di questa categoria
fanno parte, ormai, solo i MIDI file.
Nonostante il MIDI preveda la standardizzazione dei timbri strumentali
(standard
GS/GM), la qualità della riproduzione dipende strettamente dal
sintetizzatore utilizzato. Lo standard GS/GM, infatti, indica solo il
tipo di suono da utilizzare (es.: pianoforte), non la sua qualità. Che
quest'ultimo sia buono o meno, poi, dipende solo dal sintetizzatore
locale. Così come una partitura può sembrare più o meno bella in base
agli esecutori, un file di questo tipo, da bellissimo può diventare
orrendo se viene sintetizzato con suoni pessimi.
- La terza categoria incorpora alcune caratteristiche di entrambe
le precedenti ed è quella dei formati che contengono sia i campioni
sonori che i dati di controlli per utilizzarli. L'esempio tipico è
quello dei file MOD, alla cui descrizione vi rimandiamo.
2. Formati
Formati audio di 1a categoria lineari (non compressi)
u-law Estensioni: AU, SND
Il formato u-law
(pronunciato mu law in quanto la ‘u' iniziale altro non è
che una semplificazione del nome originale con l'iniziale greca µ-law) è originario dei
sistemi Sun e NeXT per cui è noto anche come NeXT/Sun format
ed è uno dei tipi di file più frequentemente utilizzati
su Internet (generalmente con estensione .AU perché .SND è
ambigua) in quanto su tutte le piattaforme esistono ormai piccoli
programmi che riproducono questo formato.
La qualità di
questi campioni è però piuttosto bassa: nonostante il
formato supporti un SR anche di 22050 e 44100, di solito si utilizza
8K che equivale alla banda di una buona linea telefonica. In
compenso, i file hanno dimensioni decisamente ridotte rispetto agli
equivalenti con SR più alto e quindi si scaricano più
facilmente via rete. Proprio per questa ragione alcuni archivi sonori
dispongono di file in due formati: il formato AU è usato per
un download veloce, magari per effettuare un pre-ascolto, prima di
lanciarsi in un lungo download del file equivalente ma ad alta
qualità in un altro formato. Qui trovate le
specifiche tecniche del formato AU.
Audio Interchange File Format Estensioni: AIF,
AIFF
L'Audio Interchange File
Format è di origine Apple (1985) e consente la memorizzazione di
campioni mono o multicanale a 8 o 16 bit e varie frequenze di
campionamento. Trattandosi di un formato elaborato per essere
portabile, può essere anche facilmente convertito (come
vedremo, il RIFF Microsoft è simile) e quindi viene utilizzato
spesso.
RIFF WAVE Estensioni: WAV
Elaborato da Microsoft e
IBM nel 1992, il RIFF WAVE (il cui nome completo è Resource Interchange
File Format Waveform Audio Format) segue le specifiche del più
generale Rich Information File Format. É stato introdotto a
partire da Windows 3.1 ed è diventato in breve il formato più
diffuso per le applicazioni su PC. I file WAV supportano varie
tipologie di campionamento: sono mono o multicanale, 8 o 16 bit a
diversi sampling rate con vari sistemi di codifica anche se i più
diffusi sono il PCM
e l'ADPCM.
Qui trovate le
specifiche tecniche del formato WAV.
Creative Voice Estensioni: VOC
Il VOC è il
formato proprietario della Creative Lab, produttore della Sound
Blaster. Questo formato supporta solo 8 bit mono con SR fino a 44.1
kHz e stereo con SR fino a 22 kHz.
Amiga Interchange File Format Estensioni: IFF
IFF/8SVX è il
formato standard dei computer Amiga. È simile all'AIFF, ma
supporta solo campioni a 8 bit. Raramente usato fuori dal mondo
Amiga. Amiga è scomparso, ma sono rimasti i file.
Macintosh SND Estensioni: SND
Questa estensione è
ambigua in quanto viene utilizza anche dai già visti file di
formato u law. SND è in realtà l'estensione dei
file di sistema Macintosh, ma anche alcuni vecchi software per PC la
usano. I file del vecchio Mac, comunque, potevano avere vari SR, da 5.5
a 22
kHz, anche se il più usato era 11 kHz. Questi file sono
del tipi AIFF o AIFC e venivano riprodotti direttamente dall'hardware
sonoro del computer con il System 7 (sono di tipi SFIL, per sound
file, nel resource fork). Raramente usati fuori dal mondo Mac.
RAW pcm Estensioni: PCM, SND
File di campioni con
semplice codifica PCM senza header. Raramente usati se non come file
temporanei o per specifiche applicazioni.
Formati audio di 2a categoria
MIDI file Estensioni: MID, MIDI
Come già
accennato, i MIDI file non contengono audio, ma solo dati di
controllo che istruiscono un sintetizzatore MIDI locale, interno o
esterno, ad eseguire determinate azioni tipo “suona una certa
nota”, “ferma una nota”, “applica un vibrato”, ecc. Lo standard
MIDI file è stato creato nel 1983 dalla MIDI Manufacturer
Association, un gruppo di costruttori di strumenti musicali
elettronici, che è anche responsabile del suo aggiornamento.
Questi file sono largamente disponibili su Internet e tutte le
piattaforme sono ormai in grado di riprodurli senza munirsi di
software aggiuntivo, a patto, ovviamente, di possedere un
sintetizzatore MIDI virtuale oppure reale su scheda o esterno.
Qui trovate un approfondimento
e le specifiche tecniche. Questo invece è il sito ufficiale della MMA.
Formati audio di 3a categoria
Moduli Estensioni: MOD (Protracker), XM
(Fasttracker), IT (Impulse
Tracker), S3M (ScreamTracker) e altri
I file MOD possono essere considerati come un formato di incrocio fra
la 1a e la 2a categoria.
Il loro formato è simile a quello dei MIDI file (sono cioè
composti di dati di controllo e non di audio vero e proprio), con la
differenza che contengono anche i timbri strumentali con cui
effettuare l'esecuzione sotto forma di un banco di suoni campionati.
I dati di controllo, poi, pilotano l'esecuzione che deve essere
effettuata con questi timbri. Nella prima versione i campioni erano a 8
bit.
I file MOD sono
originari
dell'Amiga, ma hanno avuto una certa diffusione grazie soprattutto
alle dimensioni contenute rispetto a un file audio totalmente
campionato e al fatto che l'esecuzione viene sempre effettuata con i
timbri originali ovviando, così, ai problemi di differenze
timbriche dei MIDI file. Sono nati, così, vari formati che riprendono e
sviluppano l'idea dei MOD.
3. Compressione
Le compressioni sono sistemi per ridurre la dimensione di un file
mediante l'applicazione di vari tipi di algoritmi e/o codifiche.
Si distinguono due tipi di compressione:
loseless (senza perdita) in cui il
file viene compresso senza eliminare nessuna informazione e la sua
decompressione permette, quindi, di riavere esattamente l'originale e
lossy (con perdita) in cui la
compressione elimina parti considerate ridondanti o ininfluenti e la
decompressione non riporta all'originale.
Chiaramente, il primo sistema preserva l'integrità dell'originale, ma
comprime meno, mentre il secondo comporta una perdita di qualità ma
comprime molto di più, proporzionalmente al livello di perdita
che si è disposti ad accettare. Vediamo qualche esempio.
Compressione loseless
Le compressioni loseless si basano sulla riduzione della ridondanza
tipica delle produzioni umane.
Per esempio, in un libro dedicato alla musica sperimentale, la
locuzione "musica sperimentale", lunga 19 caratteri, sarà ripetuta
molte volte. A questo punto, basta sostituirla con un simbolo che
normalmente non si trova in un testo, come per es. '#1#', per ridurre
un termine di 19 caratteri a uno di 3, risparmiando 16 caratteri per
ogni occorrenza. In realtà bisogna dire "per ogni occorenza oltre la
prima", perchè, per poter poi decomprimere il testo, bisogna costruire
anche un indice delle sostituzioni in cui, in questo caso, sarà scritto
#1#="musica sperimentale".
Ovviamente, nel libro, anche molte altre parole o insiemi di esse
saranno ripetute più volte, e ognuno di essi potrà essere sostituito da
un simbolo come #2#, #3#, ... , #n#, dove n è un numero progressivo,
ottenendo alla fine un risparmio notevole.
Un sistema analogo è utilizzato dall'algoritmo di Lempel-Ziv (LZ) i cui
derivati sono alla base di molti dei moderni programmi di compressione
loseless, compreso il notissimo ZIP.
In realtà l'antenato di molti codificatori loseless è la cosiddetta
Codifica di Huffman. Si tratta di un sistema di eliminazione della
ridondanza sviluppato nel 1952 dal ricercatore omonimo, allora studente
al MIT. Il suo algoritmo risolve il problema di codificare una serie di
stringhe (stringa = un qualsiasi insieme di caratteri) nel modo più
compatto possibile, tenendo conto anche della frequenza con cui le
stringhe si presentano: a quella più frequente viene assegnato il
simbolo più breve in modo da massimizzare la compressione.
Qui trovate un buon esempio
che approfondisce le problematiche legate alla Codifica di Huffman.
Un altro tipo di compressione loseless, basato sempre sulla riduzione
della ridondanza, è il cosiddetto Run Length Encoding (RLE) che
funziona in modo molto semplice. Supponiamo di avere la seguente
stringa di 20 caratteri
ABBBBBBBBBCDEEEEFGGG
Applicando la RLE, diventa
A*9BCD*4EF*3G
per un totale di 13 caratteri, con un risparmio del 35%.
In pratica, al posto dei caratteri ripetuti è stato inserito un codice
formato dal carattere e dal numero delle ripetizioni. L'asterisco serve
a indicare che quello che segue è il numero delle ripetizioni e non fa
parte della stringa (naturalmente questo è il principio base; i
particolari della codifica possono variare).
Chiaramente questo sistema non è produttivo con i testi, ma lo è nel
caso delle immagini in cui lunghe striscie di pixel con lo stesso
colore sono abbastanza frequenti.
Compressione lossy
La compressione lossy si basa sull'eliminazione di quelle componenti
dell'informazione ritenute più o meno ininfluenti in base al livello di
compressione richiesto. A bassi livelli di compressione verranno
eliminati solo i particolari realmente ininfluenti, mentre a livelli
più
alti cambieranno anche particolari sensibili.
Un esempio non audio è la codifica delle immagini JPEG che elimina le
sfumature dando a gruppi di pixel vicini lo stesso colore se la loro
differenza è inferiore a un valore proporzionale al livello di
compressione. In
questa
pagina potete osservare l'effetto di riduzione delle dimensioni e
la corrispondente perdita di qualità a livelli di compressione via via
crescenti.
Maggiori particolari sulle compressioni possono essere trovati sulla
Wikipedia (enciclopedia free creata
dalla community),
qui in inglese.
Wikipedia esiste anche
in italiano,
ma il contenuto è più ridotto.
Formati audio di 1a categoria compressi
Lossless (senza perdita)
Questi formati lavorano in modo analogo allo zip. Comprimono il
contenuto senza eliminare nulla. Al momento dell'ascolto bisogna
effettuare una decompressione ritornando all'originale in uno dei
formati lineari già visti.
Trattandosi di compressione lossless, il confronto fra questi codec non
si fa sulla qualità (tutti restituiscono l'originale), ma sul livello
di
compressione e sulla velocità di codifica/decodifica. Come ci si poteva
aspettare, i risultati mostrano che le due cose sono inversamente
proporzionali.
APE (Monkey Audio)
Permette di ridurre di circa il 50% lo spazio
occupato dal suono (in certi casi anche di più).
FLAC
Formato Open Source, di grande popolarità. Una volta era estremamente
diffuso (soprattutto tra i puristi), ma sta perdendo via via terreno
con l'affermarsi del formato ape di MonkeyAudio che comprime un po' di
più, per quanto FLAC abbia
dalla sua una velocità di codifica e soprattutto decodifica decisamente
maggiori.
LA (Lossless Audio)
Il formato lossless che comprime di più. La conversione in questo
formato è lentissima, però ottiene la migliore compressione in
assoluto. E' poco diffuso, dato che qualche Mb guadagnato non
vale le lunghe attese in più (e un minor supporto da programmi terzi).
Test fatti con 10 CD che spaziano dal jazz al metal (NON però con
musica classica), mostrano che, fatto 100 il totale da comprimere, si
ottengono i seguenti risultati:
LA
comprime a 55.5 con velocità 2.5,
APE in modalità extra-high comprime a 56.4 con
velocità 8.8
APE in modalità normale comprime a 57.3 con velocità circa 17
FLAC comprime a 59.8 con velocità 20 in
codifica e ben 44 in decodifica.
Qui trovate i
test dettagliati.
Lossy (con perdita)
Come già detto, nella compressione lossy alcuni particolari vemgono
eliminati. Al momento della decompressione, quindi, non si ottiene più
il file originale e non c'è alcun modo per recuperarlo.
Il primo termine di giudizio, quindi, è la qualità acustica. Il
problema di ogni valutazione è che, tranne casi eclatanti ad alti
livelli di compressione, non ci sono modi numerici per decidere chi è
il migliore, ma, dato che le differenze possono essere minime, bisogna
fare i conti almeno con:
- il genere musicale
- la cultura dell'ascoltatore
- le preferenze dell'ascoltatore
- le modalità di ascolto
- la qualità dell'impianto di ascolto
Per fare un esempio estremo, è chiaro che se il mio fruitore-tipo è
quello che ascolta heavy metal in macchina, posso permettermi di più
rispetto a un ascoltatore di musica classica in sala insonorizzata.
Passiamo alla descrizione dei singoli formati.
AIFF Compresso Estensioni: AIFC
Già molti anni fa Apple
ha introdotto il formato AIFC che è la versione compressa del già
citato AIFF. Il rapporto di compressione raggiunge 6:1,
ma a prezzo di perdita di qualità sensibile del segnale. Rapporti come
2:1 o al limite 3:1 danno buoni risultati anche su suoni complessi. La
maggior parte delle applicazioni che leggono gli AIFF sono usabili
anche per gli AIFC.
MPEG Estensioni: MPEG, MPG, MP1, MP2, MP3
La codifica MPEG è,
in verità, più nota per i file video, ma poiché
ai video di solito si accompagna un audio, il Moving Picture Expert Group
(MPEG, appunto) cha fa parte dell'ISO/IEC
(International Standards Organization/International Electrotechnical
Commission, una organizzazione internazione che promuove
standard in vari campi industriali) ha definito le specifiche di uno
dei più popolari sistemi di
memorizzazione e compressione dell'audio fra quelli utilizzati in
Internet attualmente.
In realtà, le ricerche per un algoritmo di compressione audio con
prestazioni elevate e alta qualità erano iniziate già nel 1987 al Fraunhofer Institut
in Germania, con il nome in codice EUREKA project EU147, Digital Audio
Broadcasting (DAB).
Nel 1988 si insedia l'MPEG come sottogruppo dell'ISO dedicato agli
standard audio/video. In questa sede, l'italiano Leonardo Chiariglione inizia la
definizione di uno standard di compressione audio. Le istanze dell'ISO
e le realizzazioni Fraunhofer, che nel frattempo aveva brevettato il
proprio algoritmo, si incontrano e nel 1992 queste ultime vengono
integrate nelle specifiche dell'MPEG-1 che esce nel 1993.
I file audio MPEG
possono
essere di tre tipi diversi ognuno dei quali ha le proprie specifiche.
I livelli più elevati impiegano un tempo di
codifica/decodifica maggiore, ma comprimono di più senza
sacrificare la qualità audio.
Ogni standard può avere
diversi layers (chiamati impropriamente "livelli") che
rappresentano ciascuno una famiglia di algoritmi di codifica,
contrassegnati da un numero romano: Layer I, Layer II, Layer III.
Quelli maggiormente utilizzati per l'audio sono stati sviluppati
nell'ambito del protocollo MPEG 1 e sono comunemente noti com MP1, 2
o 3 (in realtà il loro nome è MP1 layer I, II o III).
La compressione è
basata su modelli psico-acustici che operano in modo simile al ben
più noto JPEG sviluppato per le immagini. Il livello MPEG 2
comprime oltre 5:1 e può arrivare a 12:1 senza perdere qualità
in modo apprezzabile anche se, come nel caso del JPEG, il risultato
dipende dalla complessità del file di partenza (da notare che
questi risultati non sono eccezionali se comparati a quelli video
dove si arriva a 26:1).
Gli impieghi dell'MPEG,
comunque, vanno oltre Internet: Philips lo utilizza per il video CD
ed è usato anche in numerose radio digitali. I lettori sono
stati sviluppati per tutte le piattaforme e sono gli stessi che
leggono i file video.
Vi diamo qui le
caratteristiche dei 3 formati:
Layer I
Compressione 1:4
Bitrate 384 Kb/s
Usato nei Philips DCC e
nei sistemi digitali professionali. Adotta esclusivamente il metodo
di eliminazione delle frequenze mascherate derivato dagli studi di
psicoacustica. Ciò significa che elimina quelle frequenze
che vengono nascoste dietro ad altre più presenti (masking).
Layer II
Compressione da 1:6 a
1:8
Adotta metodi di
filtraggio del segnale audio molto più spinti rispetto al
primo modello. E' stato migliorato il metodo della scelta e della
eliminazione delle frequenze non necessarie. Codificando a 160 Kb/s
si ottiene un buona qualità di suono; a 192 Kb/s si arriva vicini
all'originale; a 256 Kb/s risulta
difficile notare la differenza dall'originale.
Layer III
Compressione da 1:10 a
1:13
È il più
complesso fra i modelli MPEG per l'audio. Non solo adotta filtraggi
più massicci rispetto al Layer II, ma utilizza anche un coder
estremamente complesso (Huffmann). Codificando il segnale a 128 Kb/s
si ottiene un suono sufficientemente buono; a 160 Kb/s si è
molto vicini all'originale; a 192 Kb/s e oltre, è difficile
percepire differenze con l'originale.
La pagina web ufficiale pubblica i sequenti tassi di compressione per
l’MPEG-1 Layer 1,2 e 3.
- Layer 1: 384 kbit/s, compressione 4:1
- Layer 2: 192...256 kbit/s, compressione 6:1...8:1
- Layer 3: 112...128 kbit/s, compressione 10:1...12:1
Questi sono valori piuttosto aleatori in quanto:
- La qualità dipende non solo dal formato di codifica del file, ma
anche dalla qualità psico acustica del
codificatore. Il
codificatore tipico layer 1 usa un modello psicoacustico molto
elementare che finisce per richiedere molti più bit per un
risultato soddisfacente.
- La codifica Layer 1 a 384 kbit/s è migliore della codifica Layer
2 a 192 … 256
kbit/s.
- La codifica Layer 3 a 112 … 128kbit/s è peggiore del Layer 2 a
192 … 256 kbit/s
Un modo più realistico per considerare il bitrate è:
- Layer 1: eccellente a 384 kbit/s
- Layer 2: eccellente a 256...320 kbit/s, molto buono a 224...256
kbit/s, buono a 192...224 kbit/s, non si dovrebbe usare sotto
i 160 kbit/s
- Layer 3: eccellente a 224...256 kbit/s, molto buono a 192...224
kbit/s, buono a 160...192 kbit/s, non si dovrebbe usare sotto
i 128 kbit/s
Qui trovate
una trattazione
dettagliata dell'MP3 in italiano (curata dal sottoscritto).
MP3Pro
MP3Pro, di Thomson Multimedia, è in realtà una combinazione di MP3 e
SBR (spectral band replication, vedi
SBR
Explained - Coding technologies).
Questa tecnologia codifica a parte
(cioè in flussi diversi) le componenti a bassa e ad alta frequenza del
segnale che viene, così, suddiviso in due parti prima del trattamento.
In tal modo ognuna delle due parti viene codificata in modo adeguato
ottenendo una qualità migliore, ma anche file leggermente più grossi.
MusePack (MPC noto anche come MP+)
Formato di altissimi risultati (secondo il produttore), soprattutto a
bitrate alti (oltre 192
kbps e oltre). Effettivamente, su alcuni brani i risultati sono
migliori (più cristallini) dell'mp3 a bitrate costante, soprattutto a
bitrate medio/alti (192 kbps).
Sono in molti a considerarlo il miglior
formato audio lossy, ma in effetti MPC ha risultati migliori perché
utilizza il bitrate variabile (VBR) che lui chiama CVD (crystal voice
detection) quindi è ovvio che vinca facilmente se confrontato all'MP3
con bitrate fisso. In realtà si dovrebbero fare test per confrontarlo
con un
MP3 a bitrate
variabile.
Sito MusePack
OGG VORBIS
Prende questo nome perché incapsula il codec Vorbis nel formato Ogg.
Sia Vorbis che Ogg sono open source e sono stati creati dalla
Xiph.Org
Foundation nel 1998 quando sembrava che Fraunhofer Gesellschaft
volesse imporre il pagamento dei deritti per l'uso dell'MP3.
Xiph.Org
Foundation è una organizzazione non profit che si dedica allo sviluppo
di formati multimediali di pubblico dominio, per evitare che
l'applicazione dei diritti derivanti dai copyright sui formati possa
soffocare la condivisione della conoscenza.
Ogg Vorbis è un ottimo codec open source. Riesce a dare risultati
migliori dell'mp3
soprattutto a bitrate bassi (maggior qualità in minor spazio), cioè
inferiori a 128 kbps. Proprio per questa ragione la tecnologia Vorbis
viene impiegata anche da parecchi grandi produttori di videogames al
posto dell'MP3 per evitare eventuali richieste di diritti da parte di
Fraunhofer Gesellschaft.
WMA
Formato windows media audio, compresso e molto simile a un mp3. Formato
di compressione audio proprietario Microsoft.
I file compressi in
questo
formato sono di circa il 20 % più piccoli degli Mp3 con qualità
generalmente inferiore. Il codec WMA è incapsulato in un ASF, per cui
l'estensione può anche essere quest'ultima. In genere si usa WMA quando
il contenuto è solo audio.
Altri
particolari sulla wikipedia.
AAC
L'Advanced Audio Coding (
AAC) usato nell'Apple I-Pod è
uno schema di compressione che fa parte delle specifiche del MP4 le cui
specifiche a livello progettuale sono uscite in ottobre 2004. Ecco le
sue caratteristiche come dichiarate dal produttore:
- Sample frequencies from 8 kHz to 96 kHz (official MP3: 16 to 48
kHz)
- Up to 48 channels
- Higher coding efficiency for stationary signals (blocksize: 576
-> 1024 samples)
- Higher coding efficiency for transient signals (blocksize: 192
-> 128 samples)
- Much better handling of frequencies above 16 kHz
- More flexible joint stereo (separate for every scale band)
AAC takes a modular approach to encoding. Depending on the complexity
of the bitstream to be encoded, the desired performance
and the acceptable output, implementers may create profiles to define
which of a specific set of tools they want use for a
particular application. The standard offers four default profiles:
- Low Complexity Profile (LC) - the simplest and most widely used
and supported.
- Main Profile (MAIN), which expands upon LC with backwards
prediction.
- Sample-rate Scalable (SRS), also called Scalable Sample Rate (MPEG-4
AAC-SSR).
- Long Term Prediction (LTP), added in MPEG-4, an improvement of
the MAIN profile using a forward predictor with lower
computational complexity
Depending on the AAC profile and the MP3 encoder, 96 kbit/s AAC can
give nearly the same or better perceptional quality as 128
kbit/s MP3.
Streaming audio
RAM, RM, ASF, ASX
Lo streaming è la trasmissione in rete dei dati audiovisivi in
tempo reale; tutto questo senza tempi di attesa derivanti dal download
completo del file sull’hard disk del computer. Con lo streaming,
infatti, non viene scaricato l’intero file audio prima di consentirne
l’ascolto, ma la riproduzione inizia per ogni blocco di due secondi di
ascolto; nel frattempo viene scaricato il successivo. Si possono
verificare momentanee interruzioni nella riproduzione, nel caso in cui
il traffico nella rete risulti congestionato.
Questo sistema di
trasmissione è possibile con modem da 28.8 kbit/sec in su. In base alle
capacità di collegamento dell’utente, è possibile selezionare le
diverse qualità di suono.
Le due principali tecnologie di audio
streaming utilizzate sono Real (attraverso il plugin real player), e
Windows
Media (Windows Media player).
Real Technologies ha iniziato a
promuovere tecnologie di streaming audio (e successivamente video), per
mezzo di piccoli files con estensione ram o rm con banda di
trasmissione che arriva fino a 56Kbit/sec. Windows Media (Microsoft)
utilizza una soluzione per lo streaming basata sui file Asf e Asx con
una banda abbastanza ristretta (15-25 kbit/sec) e qualità inferiore.
La tecnologia dello
streaming audio ha permesso alle principali emittenti radiofoniche di
presentare sui propri siti web i loro programmi trasmessi via etere,
cosicché chiunque sul globo terrestre potesse ricevere una trasmissione
“radio” dal pc. Nascono anche le radio “web only”, non presenti via
etere, ma solo sul web.
Studieremo nei particolari lo streaming e le tecnologie audio web in un
esame del II° anno.
DAB: Digital Audio Broadcasting
è un sistema di trasmissione di segnali radio digitali via etere. Il
DAB si bassa su un algoritmo di compressione audio simile a MP3 ma
evoluto per la trasmissione di bouquet di pacchetti che permettono
all’emittente di presentare più di una versione dei suoi programmi. La
qualità della trasmissione è variabile a seconda della banda occupata.
Durante la trasmissione vengono usati i codici CRC per correggere
errori e mantenere la trasmissione a un elevato livello qualitativo
anche in condizione di ricezioni non ottimali.
Tabella SR
La seguente tabella
riporta vari SR ancora più o meno in uso.
|
Freq.
|
Uso
|
Note
|
|
8000
|
Standard telefonico usato nei file con
codifica u law e nel formato proprietario NeXT/Sun
|
In realtà il NeXT usava 8012.8210513 che
sembra
essere anche la frequenza del CODEC Telco
|
|
11k
|
In realtà 11025: un quarto del sampling rate
del CD
|
Metà della frequenza standard del primo Mac,
era utilizzata nelle vecchie applicazioni multimediali per Macintosh.
In realtà era 11127.27272...
|
|
16000
|
Usata da parecchi sistemi di compressione
standard come il CCITT G.722
|
|
|
18.9k
|
Standard CD-ROM/XA (qualità normale)
|
|
|
22k
|
In realtà 22050, metà del sampling rate del CD
|
La frequenza standard del primo Mac che però
era in realtà 22254.5454... ed è spesso citata erroneamente come 22000
|
|
24k
|
Usata nello schema di compressione CCITT G.723
|
|
|
32000
|
Usata nelle radio digitali NICAM (Nearly
Instantaneous Compandable Audio Matrix), IBA/BREMA/BBC, nella
giapponese HDTV e nello schema di compressione CCITT G.721
|
|
|
37.8k
|
Standard CD-ROM/XA (alta qualità)
|
|
|
40K
|
Usata nello schema di compressione CCITT G.723
|
|
|
44056
|
Assurdo SR usato da dispositivi professionali
per piazzare un numero intero di campioni audio in un frame video.
|
|
|
44100
|
Standard CD
|
|
|
48000
|
Standard DAT
|
|
|
96000
|
Standard proposto per il DVD audio
|
|
176400
|
Standard
equivalente Super Audio CD (SACD)
|
In
realtà il SACDutilizza una tecnologia chiamata DSD (direct
stream digital) che funziona in modo diverso dal PCM ed è una versione
estrema del vecchio campionamento delta-sigma. L'SR è 2882400 a 1 bit
con accumulazione.
|