Audio digital

Samu DSPSoft

Audio

http://mural.uv.es/samecues

Principal

Meteosat

Software

Spyware

Enlaces

Sobre el autor

Libro visitas

Foro

Audio digital

Lo primero para entender este tema es saber sobre el audio en general. Las señales de audio, tal y como nosotros las percibimos, son analógicas . Las señales analógicas son señales de tiempo contínuo . Esto significa que la representación de la señal con el tiempo es una línea sin discontinuidades por muy pequeña que sea la fracción de tiempo que tomemos. Para entenderlo mejor veamos un ejemplo de esto:

En la figura se observa que la señal da tres oscilaciones en un periodo temporal de 1 segundo. Esto significa que la frecuencia de dicha señal es 3 Hz . Un Hertzio (Hz) es una oscilación en un segundo, sabiendo que una oscilación es una vuelta completa al círculo (un ciclo), pero representado mediante el tiempo:

En efecto, vemos que una oscilación es una vuelta completa al círculo, que en radianes es 2 veces el número Pi .
En el ejemplo la señal es senoidal, ya que sus valores A (amplitud, energía de la señal) siguen la función seno cuya representación en el tiempo es:

A * sen( 2 * Pi * frecuencia * t)

donde vemos claramente que el resultado depende del tiempo t.
Después de esta sencilla aclaración sobre las señales contínuas en el tiempo, veamos las discretas en el tiempo.
Una señal es discreta cuando es el resultado de una sucesión de valores tomados de una señal contínua. Dichos valores son finitos. Veamos un ejemplo aplicado al ejemplo anterior:

Se puede observar claramente que la señal es una sucesión de valores (puntos) tomados regularmente cada cierto tiempo.
Este tiempo en el cual se toma un valor de la señal se llama tiempo de muestreo (tr) y su inversa es la frecuencia de muestreo (1/tr) y a la cual llamaremos fr (SampleRate en inglés) . Estos valores se guardan en un archivo, que suponemos que es de tipo wav .
Lógicamente, cuanto mayor sea la frecuencia de muestreo tantos más puntos de representación obtendremos y mejor será la calidad del sonido obtenido, y por supuesto mayor será el tamaño del archivo wav en el cual los guardamos.

Llegados a este punto hay que aclarar un dato muy importante sobre la frecuencia de muestreo: la frecuencia Nyquist.
El oído humano es capaz de escuchar frecuencias comprendidas en el intervalo 20Hz - 20KHz (1KHz = 1000Hz). La frecuencia Nyquist nos indica el máximo valor de frecuencia que podremos representar dada una cierta frecuencia de muestreo, siendo este valor la mitad de la misma (fNyquist = fr/2). Si la frecuencia de muestreo es 10KHz, la máxima frecuencia representable será 10000/2 = 5000Hz (5KHz), y recordemos que nuestro oído capta de 20Hz a 20KHz con lo cual aquí el archivo resultante sonará pobre en agudos y no será una fiel representación del sonido original.
Otro dato a tener en cuenta es la cantidad de información que usaremos para cada punto, en bits. A esto se le llama resolución de la muestra y viene dada mediante bits por muestra ( bits per sample , en inglés). Lógicamente, cuanto mayor sea este valor tanto más fiel será cada representación al valor original y mayor será el tamaño del archivo wav resultante. Por ejemplo, una resolución de 8 bits por muestra puede representar 256 niveles mientras que otra de 16 bits por muestra puede representar 65535 niveles por muestra.
Dicho todo esto, vamos a analizar el formato usado en los CD de audio:
44,1KHz 16bits estéreo.
La frecuencia de muestreo es más que suficiente ya que la máxima frecuencia representable es: 44,1KHz/2 = 22KHz, que vemos sobrepasa la máxima frecuencia audible de nuestro oído. La resolución 16bits es más que suficiente para representar valores. El ser estéreo significa que el archivo ocupará el doble que siendo mono, ya que se toman el doble de muestras: la mitad para el canal izquierdo y la otra mitad para el derecho. Vemos que el formato CD representa perfectamente todas la frecuencias audibles a una muy buena fidelidad.

Archivos comprimidos

Hemos visto que el formato CD nos da un sonido digital de muy buena calidad, pero el tamaño de estos archivos es muy grande. El tamaño de un archivo wav viene determinado por:
frecuencia muestreo*resolución*duración(en segundos)*canales( 1 si es mono, 2 si es estéreo) y todo ello dividido entre 8, nos da el tamaño del archivo en Bytes .
Esto quiere decir que 1 segundo de audio nos ocupará: 176400Bytes o bien 172,2KBytes. Y un minuto : 10584000Bytes ó 10335KBytes ó 10,09MBytes (10 MB).
Es mucho tamaño. Para solucionar este problema se han creado diversos formatos de compresión de audio, mediante los cuales se puede reducir bastante este tamaño sin perder casi calidad en el sonido.
El más famoso hasta ahora es el MPEG Layer-3 llamado MP3.
Estos formatos se basan en la audición real de nuestro oído. Esto quiere decir que no hace falta grabar información que nuestro cerebro va a pasar por alto. Primero, el oído humano es más insensible cuanto mayor es la frecuencia, sobre todo a partir de 10KHz. Lo segundo, si se solapan dos frecuencias y siendo una de ellas perfectamente audible y otra de mayor frecuencia pero de menor intensidad, el resultado será que nuestro cerebro pasará por alto la de mayor frecuencia.
Siguiendo estos esquemas actúan los compresores de audio tipo MP3, OGGVorbis, etc.
Entre sus características figuran:
-Frecuencia de muestreo (SampleRate)
-BitRate
- Mono, DualChannel, Stereo, JointStereo.
El SampleRate (véase frecuencia de muestreo, más arriba) se hace coincidir con el del archivo que se desea comprimir. El BitRate es muy importante y define la cantidad de compresión utilizada, es el número de bits por segundo que se reproducen. En general, BitRates menores de 96Kbps tienen mucha capacidad de compresión pero son pobres en calidad de audio. Un BitRate de 128Kbps se dice de calidad CD, y con un buen nivel de compresión que suele rondar el 10:1 (10 veces menor que el archivo original). Un BitRate de 160Kbps es más que suficiente para conseguir una calidad óptima a un buen nivel de compresión.

Existen otros formatos de compresión llamados lossless , ya que al comprimir no se pierde absolutamente nada de información. Ejemplos más destacados son MonkeyAudio y FLAC .

Por último decir que el formato OGGVorbis tiene muchas posibilidades de hacerse el formato más utilizado, ya que su calidad supera al MP3 a igual bitrate y las licencias para realizar y utilizar software con OGG son gratuitas.