
En este apartado trataremos de explicar brevemente y de forma comprensible algunos de los formatos de audio más extendidos en el mundo de la música. Para establecer una clasificación básica de los mismos, los hemos dividido en tres grandes secciones que abarcan sonido digital, composición e Internet, a través del conocido streaming de audio.
SONIDO DIGITAL.-
Al igual que Midi o los módulos de sonido, el audio digital se consigue grabando directamente cualquier señal reproducida por un fichero. Por ello, el tamaño de este tipo de archivos es sensiblemente mayor que los Midi, aunque también resultan mucho más precisos. Su comportamiento se asemeja bastante al de un osciloscopio, puesto que manipula las ondas de modo que su representación sea inteligible. No obstante, el ordenador transforma dicha información en código binario: unos y ceros. Si alguna vez os preguntáis qué hace sonar los Cd´s mejor que las cintas o los viejos vinilos la respuesta está precisamente en el formato de sonido digital. La conversión de datos a este tipo de formato se denomina "Pulse Code Modulation", más conocida por su acrónimo PCM. Una de sus principales virtudes frente a la naturaleza analógica de otros soportes es que no se degrada con el paso del tiempo y no pierde su calidad, ya que los Cd´s nunca tienen contacto con un cabezal físico como ocurre con los medios analógicos. En la tarjeta de sonido la forma en que la música se graba en formato digital se explica gracias a un convertidor que hace que la fuente (señal analógica) se transforme en un patrón de ceros y unos almacenados en nuestro disco duro. Cuando se reproduce, al igual que ocurre en los Cd´s, los datos se modifican a la inversa por medio de un segundo convertidor (de digital a analógico) que cambia los unos y ceros a ondas que son emitidas por los altavoces en forma de señales audibles. El segundo factor es el llamado "sampling rate", que especifica cuántas veces por segundo se convierten los datos digitales en un patrón de 8 o 16 bits, es decir, el número de muestras que tomamos por segundo de la señal que llega. Cada una de esas muestras tiene cierto valor que concreta su bitrate y que puede estar, como hemos dicho, en 8 o 16 bits. Es algo similar a la resolución gráfica en pantalla: tendremos 1.024 x 768 puntos, cada uno con una profundidad de color de 16 bits, por poner un ejemplo. Los Cd´s usan 44.100 Hz, lo que significa que hay 44.100 tramas por segundo. Esto tiene sentido, ya que el oído humano tiene un rango de audición que oscila entre los 20 y los 20.000 Hz, lo que implica que todo el rango de frecuencias audibles por un ser humano está cubierto con esta tasa de muestreo. Este factor también hace que los ficheros sean más grandes. Así, por ejemplo, un fichero con una calidad Cd estéreo de 16 bits y a 44,1 Hz ocupará 175 Kbytes por cada segundo de sonido (16/8 (bits) x 2 (estéreo) x 44.100 (tasa de muestreo) = 176.400 bytes por segundo), o lo que es lo mismo, aproximadamente 11 Mb por minuto). El tercer factor que afecta a la calidad de los ficheros de sonido es el que ha dado lugar a la gran polémica en la industria musical.
COMPRESIÓN DE SONIDO.-
Para disminuir el tamaño de los ficheros de sonido sin comprometer la calidad de forma crítica, como lo haría un fichero de 8 bits/11.025 Hz/Mono, algunas compañías han implementado algoritmos de compresión que reducen la forma de onda al grabarla y la descomprimen para reproducción. Estos algoritmos se denominan "Codecs" (COmpresores/DECompresores). Uno de los más antiguos que ofrece buena calidad sin recurrir a mucha potencia de procesador para decodificar la señal es el llamado "ADPCM". Se realizó en tres versiones diferentes: Microsoft ADPCM, IMA/DVI ADPCM, y el ahora extinto Creative ADPCM, que fue utilizado en las tarjetas Sound Blaster 16 y AWE 32 para ofrecer descompresión por hardware de estos ficheros. Este algoritmo logra una compresión 4:1 y una calidad mejor que la que puede suministrar un fichero de 8 bits. Para altas frecuencias de muestreo es mejor el Codec de MS y para obtener mayor calidad se recomienda el IMA ADPCM.
Algunos de los otros esquemas de compresión que no se ven demasiado pero que están disponibles para cualquier ordenador con Windows instalado son los CCITT-A y CCITT-U, que convierten un fichero de 16 bits a la mitad de su tamaño sin pérdida de calidad. También está el GSM 6.10 (Global Standar for Mobile Communication) que ofrece tamaños menores con tasas de muestreo similares a la de los ficheros Mp3 y, aunque ofrece en general menos calidad en formatos de sonido complejos como los Cd´s de audio, funciona bien para formas de onda simples. El Codec "TrueSpeech" del DSP Group tiene baja calidad pero el tamaño es extremadamente pequeño, así que puede convenir para algunas tareas. En esta línea se hallan los ficheros con extensiones como AIFF, AU o VOC. Estos formatos también son ficheros de sonido digitales. AIFF es el formato nativo en los ordenadores Macintosh. El formato original se limitaba a estar codificado en 8 bits, a 8.000 Hz y en mono, pero ya ha superado esta desventaja y es el segundo detrás del Wav en ficheros de sonido descomprimidos. AU es el más extendido en los sistemas Unix, que por otra parte ya se han adaptado al resto de los formatos gracias a reproductores específicos. Por otro lado, los VOC corresponden al fichero nativo de las tarjetas de sonido Sound Blaster y Sound Blaster Pro. Fue diseñado para trabajar con estas tarjetas en los juegos y parece que aún tiene cierta repercusión debido al tema de la compatibilidad.
MÚSICA EN MÓDULOS.-
Los módulos son muy parecidos a los ficheros Midi y al sonido digital, ya que incluyen datos de las notas para los diferentes pitches o tonos en las canciones. Pero también ofrecen muestras o samples digitales del instrumento a ser tocado para prevenir que éste no se encuentre en el conjunto de samples, lo que es un problema en algunos Midis. Esto significa que temas como efectos de voz y música dance se pueden ofrecer en los módulos manteniendo tamaños de fichero bajos en comparación con la misma longitud de onda en otro tipo de ficheros como los Mp3. Igualmente, esto quiere decir que el usuario puede mantener la calidad de instrumentos en formato digital y acceder a la creatividad que generalmente impulsan estos formatos, al igual que el Midi. Esto hace de los módulos el formato por excelencia para los compositores de música dance. Los módulos tienen su origen en el formato nativo conocido como MOD en los ordenadores Amiga. MOD creció y se dividió en varios formatos que llegaron como módulos al mundo del ordenador. Muchos de ellos rompieron las limitaciones inherentes a los Mod´s, tales como tener sólo 8 canales, samples no mayores de 64 K y falta de efectos. Al menos hay unos 20 formatos distintos en la actualidad, pero mencionaremos sólo los cuatro más reconocidos.
Impulse Tracker (sus ficheros tienen como extensión IT) es probablemente el más popular, soporta un límite de 32 canales y hasta 255 muestras o samples de 8 a 16 bits. También incluye deslizamiento lineal del pitch y otros efectos especiales que MOD y otros se dejó en el camino. Es, probablemente, el único formato de módulo que soporta comandos al estilo de MIDI tales como el Note-on/Note-off que delimitan la duración del sonido. Impulse Tracker soporta samples e instrumentos en formato ".iti", y es uno de los mejores porque su tracker se ha establecido en la comunidad de usuarios de este tipo de software como uno de los más usados gracias a su potencia y excelente sonido.
El segundo de los formatos, el Fast Tracker 2 (extensión XM) compite con el comentado antes tanto en logros tecnológicos como en popularidad. Es capaz de abarcar 32 canales diferentes con 128 muestras distintas de 8 o 16 bits y, aunque no aporta la característica del deslizamiento lineal del pitch, incluye efectos nativos como los controles rápidos de volumen que no encontraremos en otros. También soporta su propio formato de instrumentos, ".xi", así que los bancos comunes deben ser cargados en lugar de las muestras individuales. Es relativamente nuevo comparado con los demás, pero el tracker está realmente bien y la configuración del teclado de este software también se ha extendido mucho.
En tercer lugar, Scream Tracker 3 es sustancialmente diferente de sus versiones anteriores, sobre todo en lo que respecta a los ficheros de estos programas, con extensión STM al contrario que esta última versión cuyos conocidos ficheros tienen la extensión S3M. Probablemente, se trata del más antiguo de los tres hasta ahora comentados, lo que se demuestra en sus posibilidades. Hay un máximo de 16 canales que pueden albergar hasta 99 muestras. No tiene su propio formato de instrumentos y simplemente utiliza muestras grabadas directamente al estilo de los ficheros MOD. También soporta hasta 9 canales FM (AdLib) para ser usados en un sintetizador FM. El S3M se usa ahora menos que el resto, pero los ficheros todavía proliferan en las páginas web debido a que su tracker fue durante un tiempo el más popular de todos los existentes.
El cuarto y último formato del que hablaremos es el Protracker, que utiliza como extensión las siglas MOD y que como hemos dicho se originó en los ordenadores Amiga en los que programas como el Octamed fueron y aún son utilizados por muchos jóvenes compositores. Migró al Pc de la mano del tracker conocido como Protracker y proporciona muestras de 8 bits de tamaño limitado (64 Kbytes como máximo), pocos efectos (circunscrito a 8 canales) y está en franca desventaja frente a formatos como IT o XM. En cualquier caso, casi todos los tracker presentan compatibilidad con él, con lo que probablemente los viejos MOD´s se escuchen perfectamente en estos trackers.
EL FORMATO MIDI.-
Las siglas MIDI son el acrónimo de Musical Instrument Digital Interface. De hecho, MIDI es un estándar de comunicación entre dispositivos Midi. En un fichero de este formato, en lugar de realizarse una grabación directa de la música, simplemente se da información a la tarjeta de sonido, como por ejemplo cuándo empieza a tocarse una nota, su volumen, su tono, etc. Es decir, Midi indica cómo se debe reproducir una melodía musical. El problema con esto es que mientras que Midi da nombres y comandos comunes, no define la calidad del timbre del instrumento, de forma que cada sintetizador Midi es diferente y el mismo fichero sonará distinto en distintos ordenadores. La especificación GM (General MIDI) soporta distintos controladores y hasta 128 instrumentos comunes en un intento por solucionar el problema. Roland y Yamaha, dos de los grandes en este tema, también han desarrollado sus propios estándares con soporte para los controladores, comandos e instrumentos en GM, llamados respectivamente General Standard (GS) y eXtended General MIDI (XG).
Para aprovechar las posibilidades del estándar, necesitamos buenos componentes de sonido. Algunas de las tarjetas actuales sintetizan Midi a través de síntesis FM, usando un operador de ondas para modificarlas de forma que puedan emular instrumentos. Esto lleva a una copia pobre del instrumento que se está tocando, aunque el tono y el volumen sean correctos. Las tarjetas de sonido de calidad usan un método avanzado conocido como síntesis de tabla de ondas WaveTable Synthesis. Usando una técnica creada por Ensoniq, las grabaciones reales de instrumentos pueden modificar su pitch y ser usadas en cualquier dispositivo Midi, lo que redunda en un sonido más realista. Aún así, algunas tarjetas que utilizan este método pueden lograr un sonido excesivamente pobre debido a un chip sintetizador de escasa calidad o a un conjunto de muestras relativamente escaso. Hay sintetizadores de este estilo que funcionan por software en lugar de ejecutarse directamente desde un dispositivo HW con esta característica. Algunas aplicaciones conocidas al respecto son Singroove, Yamaha XG SoftSynthesizer o el mismo Quick Time (a partir de la versión 3) de Apple. Estos programas usan el procesador para emular esta técnica y almacenan las muestras en el disco duro en lugar de en la propia tarjeta de sonido. El problema de este método es que la mayoría de estos programas restan bastante potencia al procesador mientras están siendo usados o dan una calidad inferior dependiendo de la configuración que utilicemos en la grabación. A mayor calidad, mayores requerimientos de recursos del ordenador se nos pedirán.
STREAMING Y REAL AUDIO.-
El formato Real Audio (RA) es el más conocido de cuantos utilizan la técnica conocida como streaming, que permite la descompresión del sonido en tiempo real mientras éste está siendo bajado de Internet. RA tiene como principal competidor al mucho menos utilizado NetShow de Microsoft. Real Audio está extremadamente comprimido para ajustarse a las tasas de transferencia actuales de los modems, pero mantiene una fidelidad elevada. La música en este formato puede ser encontrada fácilmente y el reproductor típico de la misma es el conocido RealPlayer y que encontraremos en la página web de sus desarrolladores.
Estos tipos de formato están ganándose una buena popularidad gracias a Internet y la calidad es bastante buena incluso con modems de baja velocidad. Existen otras tecnologías que permiten, por ejemplo, oír la radio en la red. La más conocida de todas ellas es quizá la utilizada por ShoutCast, un servidor que engloba cientos de emisoras de todos los estilos y que utiliza Winamp como reproductor. Se recomienda, no obstante, una conexión de 5 Kbps para disfrutar de esta posibilidad, aunque todo hay que decirlo, el sonido llega con calidad pero entrecortado por la constante carga del búfer, motivada por saturación de la red o que utilicemos a la vez otra aplicación de nuestro ordenador.
FORMATOS POLÉMICOS.-
Otro de los Codecs en cuanto a este tema de compresión es el conocido MPEG-1 Layer 3, al que se le conoce mucho más por Mp3. Fue desarrollado por Fraunhoffer IIS y adoptado por el Motion Picture Experts Group y se ha hecho muy popular debido a la capacidad que tiene de conseguir calidad Cd con una compresión superior al 11:1. Es muy efectivo debido a que trabaja de forma similar a la que el oído humano lo hace, eliminando sonidos no perceptibles además de usar algunos "trucos" que hacen que el fichero se ajuste al bitrate especificado en la compresión. De todos modos, este formato tiene algunas desventajas. Tiende a suavizar los bajos y a codificar algunas ondas como si fuesen ondas cuadradas que hacen percibir el sonido como si se reprodujese debajo del agua. Otros formatos de sonido que utilizan este tipo de compresión MPEG y que no creemos oportuno extender son, por ejemplo, MP2, MP4, OGG, VQF, PAC y AAC. El MP2 (MPEG-1 Audio Layer 2) aporta una excelente calidad de sonido a bajos bitrates. Apareció algún tiempo antes que el MP3 y en general la calidad obtenida es superior a este último y al VQF, aunque con un tamaño superior. Se emplea en películas y emisoras de radio y de hecho fue uno de los formatos propuestos para la reproducción del sonido en los Dvd. De la mano de Yamaha surgió VQF (Yamaha Sound VQ) que tiene una buena calidad y tamaños muy bajos de ficheros, aunque su codificación lleva mucho más tiempo debido a este factor. Por su lado, PAC (Perceptive Audio Coding) es uno de los formatos más jóvenes y está desarrollado por Bell y Lucent Technologies. La codificación es muy rápida y logra muy buena calidad, aunque no está muy extendido por el éxito de otros desarrollos más comentados. Por último, AAC (MPEG-2 Adaptative Audio Coding) imprime calidad similar al Cd y superior a los ficheros MP3, aunque los tiempos de codificación y descodificación son largos y requieren un buen procesador.
¿TIENES DUDAS?.-
Aunque hemos intentado utilizar un lenguaje y unos conceptos lo más claros posibles, os aclaramos a qué nos referimos cuando hablamos de "Síntesis musical", "módulos de sonido" y "steaming".
SÍNTESIS MUSICAL.-
La síntesis FM implica un proceso en el que se usan osciladores de onda para modificarlas de modo que nunca se puede igualar el sonido de un instrumento real aunque se logren otros muy parecidos. Este tipo de síntesis usa varias ondas, sumándolas y mezclándolas para emular el instrumento. La síntesis de tabla de ondas toma las muestras grabadas de los instrumentos y con ellos utiliza varios osciladores y filtros para cambiar el pitch y volumen de estas muestras a los valores deseados. Hay cuatro partes de la onda que se producen en un sintetizador de estas características: Attack, correspondiente a la parte de la nota en la que se empieza a producir el sonido; Decay, que responde al instante justo después del ataque en el que el volumen baja hasta el valor sostenido; Sustain, que marca el rango de tiempo en el que el sonido se mantiene hasta su "muerte"; y Release, en el que el sonido para o baja a un nivel inaudible. Cada muestra almacena información sobre cómo es sintetizada y algunos sintetizadores permiten añadir efectos como distorsión, reverberación, chorus, sonido espacial y otros. Las tarjetas recientes utilizan otras técnicas para reproducir de forma más precisa los sonidos usando algoritmos matemáticos de representación del instrumento para decidir cómo debe sonar éste cuando es reproducido. Esta técnica se conoce como Physical Modelling Synthesis y requiere un procesador potente para modelar el instrumento y modificar la onda simultáneamente.
MÓDULOS DE SONIDO.-
Los módulos se diferencian de la información que existe en los ficheros Midi en varios factores. Los datos de las notas se almacenan en patrones, así que si una parte de la canción se duplica, simplemente se accede al patrón anterior para no repetir la misma información, lo que disminuye el tamaño final. Un patrón, sin embargo, tiene una longitud predefinida, siendo normalmente de 64 filas de datos para el formato MOD y de distinto tamaño en otros. Los módulos también tienen un número variable de canales (datos de notas independientes de otros), así que mientras que MIDI está limitado a 16 instrumentos diferentes a la vez y a la capacidad de la tarjeta de sonido para el número de voces, los módulos pueden tener tantos canales como proporcione el programa de composición, conocido como "tracker". Los canales o pistas también determinan la máxima polifonía en el módulo, al contrario que MIDI, que no puede almacenar simultáneamente varias notas en la misma pista. Debido a la manera en la que los módulos implementan sus samples, instrumentos, canales o pistas, patrones y toda la información sobre las notas y los diferentes efectos, muchas personas han escrito conversores para trasladar un formato de módulo a otro. También los hay entre ficheros Midi y formatos de módulo, pero se pierde calidad en la conversión, ya que el tratamiento aislado de las muestras que realizan los módulos no está orientado al formato Midi.
STREAMING.-
El llamado "streaming" de audio es simplemente una captura de una fuente de sonido en directo y su transmisión a otro lugar. Se compone habitualmente de dos partes, una que captura el sonido a través de la tarjeta de sonido y lo comprime y, por otro lado, el software que descodifica ese stream de datos desde la red y lo reproduce en el ordenador que recibe la información, también a través de un reproductor y una tarjeta de sonido. Este método posibilita la reproducción del sonido mientras se está retransmitiendo a través de la red. No se necesita todo el fichero de audio para empezar a escucharlo, ya que se van transmitiendo pequeños segmentos del mismo que se van descomprimiendo y reproduciendo uno detrás de otro dando la impresión de estar escuchando un único segmento de datos. De hecho, estos no se almacenan en nuestro disco duro, ya que una vez que son reproducidos se eliminan (a no ser que queramos expresamente almacenar un sonido o canción en este formato). Esta técnica no sólo se utiliza para transmitir sonido en tiempo real a través de distintas máquinas, sobre todo en Internet, sino que también tiene un protagonismo más que importante en la transmisión de vídeo.