Tema 4 multimedia
Download
1 / 118

Tema 4 Multimedia - PowerPoint PPT Presentation


  • 81 Views
  • Uploaded on

Tema 4 Multimedia. Rogelio Montañana Departamento de Informática Universidad de Valencia [email protected] http://www.uv.es/~montanan/. Concepto de red Multimedia. Teóricamente:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Tema 4 Multimedia' - helen


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Tema 4 multimedia

Tema 4Multimedia

Rogelio Montañana

Departamento de Informática

Universidad de Valencia

[email protected]

http://www.uv.es/~montanan/


Concepto de red multimedia
Concepto de red Multimedia

  • Teóricamente:

    • La red que transmite información utilizando para ello más de un medio físico. Ejemplo: documento con texto e imágenes

  • Para nosotros:

    • La red que transmite información de audio y/o vídeo en tiempo real (aunque solo se utilice uno de estos medios). Ejemplo: telefonía por Internet


Sumario
Sumario

  • Teorema de Nyquist. Conversión analógico-digital

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Vídeo bajo demanda

  • Telefonía Internet


Teorema de Nyquist.

  • Teorema de Nyquist: La digitalización de una señal analógica ha de hacerse muestreando al menos al doble de la frecuencia máxima que se pretende capturar.

    • Canal telefónico: 3,1 KHz  Muestreo 8 KHz

    • Audio HiFi: 20 KHz  Muestreo 44,1 KHz


Teorema de Nyquist

8.000 muestras/s

(captura hasta 4 KHz)

Canal telefónico

Ancho de banda =

300 a 3.400 Hz

Muestras

Señal analógica

original

Señal ‘muestreada’

a 8 KHz


Conversión analógico-digitalPCM (Pulse Code Modulation)

Ruido (o error) de cuantización

Digitalización

El error de cuantización depende del número de bits por muestra.

Señal

‘muestreada’

(valores continuos)

100100111011001

Señal digital (valores discretos)


Sumario1
Sumario

  • Teorema de Nyquist. Conversión analógico-digital.

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Video bajo demanda

  • Telefonía sobre Internet


Audio digital no comprimido


Clasificaci n algoritmos de compresi n
Clasificación algoritmos de compresión

  • Por su fidelidad:

    • Sin pérdidas (lossless): usada para datos (ej.: norma V.42bis en módems, ficheros .zip)

    • Con pérdidas (lossy): usada normalmente en audio y vídeo. Inaceptable para datos

  • Por su velocidad relativa de compresión/descompresión:

    • Simétricos: necesitan aproximadamente la misma potencia de CPU para comprimir que para descomprimir

    • Asimétricos: requieren bastante más CPU para comprimir que para descomprimir.

  • En multimedia se suelen utilizar algoritmos lossy

  • Siempre se necesita más CPU para comprimir que para descomprimir

  • Generalmente los algoritmos que consiguen mayor compresión gastan más CPU.


Tipos de compresi n de audio
Tipos de compresión de audio

  • General (apta para todo tipo de sonidos):

    • Psicoacústica (MPEG)

    • Adaptativa Diferencial (ADPCM)

  • Específica para voz:

    • Code Excited Linear Prediction (CELP)

    • CS-ACELP (Conjugate-Structure Algebraic Code Excited Linear Prediction

    • GSM

  • Los codecs de voz no son aptos para música u otros sonidos


Algunos formatos de audio digital

Bajo

Retardo

Elevado

retardo


Audio digital comprimido
Audio digital comprimido

  • Generalmente a más compresión menor calidad y mayor consumo de CPU.

  • Los sistemas de caudal variable (MPEG, G.723.1) son los que mejor se adaptan a redes sin reserva de caudal constante, como el modelo DiffServ de Internet o los servicios UBR o ABR de ATM.

  • Los sistemas de caudal constante (G.711, G.722, G.729) son más adecuados para servicios orientados a conexión (RSVP o circuitos CBR de ATM, por ejemplo).

  • La compresión MPEG es la más eficiente y da mayor calidad, pero consume mucha CPU e introduce mucho retardo por lo que no puede emplearse en aplicaciones interactivas (vídeoconferencia o telefonía).


Comparación de codecs

Simulación de canal

Limitación

Fuente

Codec ‘X’

1

2

3

4

5

“El tren es un medio de transporte cómodo.”

MOSCalidad vozNivel de distorsión

5 Excelente Imperceptible

4 Buena Apenas Perceptible, no desagradable

3 Regular Perceptible, levemente desagradable

2 Pobre Desagradable, pero aceptable

1 Insatisfactoria Muy desagradable. Inaceptable

1

2

3

4

5

MOS: Mean Opinion Score

MOS de 4.2 = Calidad óptima


Compresión vs calidad

64

PCM (G.711)

56

Caudal (Kb/s)

48

40

32

ADPCM 32 (G.726)

24

ADPCM 24 (G.725)

16

ADPCM 16 (G.726)

LDCELP 16 (G.728)

Normalmente requieren

hardware especial

8

CS-ACELP (G.729a)

CS-ACELP 8 (G.729)

LPC 4.8

MP-MLQ 6,4 (G.723.1)

0

0

1

2

3

4

5

MOS (Mean Opinion Score) Calidad Subjetiva


Codec de alta compresión optimizado para la voz humana

Estos codecs no son aptos para música


Sumario2
Sumario

  • Teorema de Nyquist. Conversión analógico-digital

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Vídeo bajo demanda

  • Telefonía Internet


Señal de vídeo analógica

La imagen capturada se descompone en tres señales que corresponden a los colores primarios

R (rojo)

G (verde)

B (azul)

Escaneador

rasterizador

Filtros

amplitud

R

tiempo

amplitud

G

Divisor

Lente

tiempo

amplitud

B

tiempo


Fundamentos de TV en color

  • Las señales R-G-B se transforman en una señal de luminancia (Y) y dos de crominancia. Esta conversión se hace para:

    • Mantener compatibilidad con televisión B/N (se ignora la crominancia)

    • Dar mas ancho de banda a la luminancia (el ojo es menos sensible a la crominancia).

  • En sistema PAL las señales de crominancia se llaman U y V; la transformación que se realiza es:

    • Y (Luminancia) = 0,30 R + 0,59 G + 0,14 B

    • U (Crominancia) = 0,493 (B - Y) = -0,15 R - 0,29 G + 0,44 B

    • V (Crominancia) = 0,877 (R - Y) = 0,62 R - 0,52 G - 0,10 B

  • Anchura de los canales:

    • Y: 5 MHz

    • U y V: 1 MHz


Funcionamiento de la TV en color

R

Matriz

Inversa

G

B

TV Color

Y

R

Mezclador

Circuito

Matricial

G

U

Modulador

B

V

Modulador

Y

Filtro

TV Blanco y Negro


Señales de vídeo analógico

  • A menudo las dos componentes de crominancia (U y V) se combinan (multiplexan en frecuencia) en una única señal llamada C.

  • En equipos sencillos (p. ej. vídeo VHS) se combinan Y y C en una única señal que se llama composite o vídeo compuesto.

  • Conforme se reduce el número de señales disminuye la calidad (especialmente en el paso de Y/C a vídeo compuesto).


deo digital ‘no comprimido’

  • El formato de grabación utilizado como referencia en estudios de TV es el D1 (estándar ITU-R CCIR-601).

  • En formato digital las dos componentes de crominancia se denominan Cr y Cb (en vez de U y V).

  • Cada fotograma se representa como una imagen de 720x576 píxels (PAL). La luminancia se digitaliza con mayor resolución que las crominancias:

    • Luminancia (Y): 720(h) x 576(v) x 8 bits x 25 fps = 82,944 Mb/s

    • Crominancia Cr : 360(h) x 576(v) x 8 bits x 25 fps = 41,472 Mb/s

    • Crominancia Cb: 360(h) x 576(v) x 8 bits x 25 fps = 41,472 Mb/s

  • Caudal total: 82,9 + 41,5 + 41,5 = 165,888 Mb/s


deo digital ‘no comprimido’

  • La reducción de la resolución en las componentes de crominancia se denomina submuestreo (subsampling).

  • El submuestreo se basa en la menor sensibilidad del ojo humano a la crominancia.

  • El submuestreo 4:2:2 de CCIR-601 reduce la información de crominancia a la mitad (sin submuestreo el caudal total sería 248,7 Mb/s).

  • La información de crominancia puede reducirse aún más (a la cuarta parte) aplicando submuestreo 4:1:1 o 4:2:0. Este submuestreo degrada un poco la calidad de color, pero la diferencia con 4:2:2 es pequeña y sólo suele ser percibida por profesionales o en situaciones extremas.


Submuestreo 4:2:2

720

720

360

8 bits

576

576

576

R

Y

G

B

Cr

Cb

Luminancia 4

Crominancia 2+2


Submuestreo 4:1:1

720

720

180

576

576

576

R

Y

G

B

Cr

Cb

Luminancia 4

Crominancia 1+1


Submuestreo 4:2:0

720

720

360

576

576

288

Cr

Cb

R

Y

G

B

Luminancia 4

Crominancia 2+0


Sistemas de grabación de vídeo digital para TV estándar (no HDTV)

(*) Compresión espacial (intraframe) con algoritmos muy parecidos a los de M-JPEG.


La compresión introduce retardo (no HDTV)

Vídeo digital comprimido

Vídeo digital

sin comprimir

Compresión de vídeo en tiempo real

Señal YUV, Y/C o Composite

Cámara de TV o vídeo

Almacena-miento

CODEC Hard o soft

Digitaliza-dor

Red local

(o WAN)

Estación digitalizadora (PC/Mac/Workstation)

Vídeo analógico

Monitor

CODEC: COmpresor/DECompresor


Vídeo digital comprimido (no HDTV)

Vídeo digital

sin comprimir

Compresión de vídeo en diferido

Señal YUV, Y/C o Composite

Cámara de TV o vídeo

Almacena-miento

Almacena-miento

CODEC Soft

Digitaliza-dor

Red local

(o WAN)

Estación digitalizadora (PC/Mac/Workstation)

Vídeo analógico

Monitor

CODEC: COmpresor/DECompresor


Compresi n de v deo
Compresión de vídeo (no HDTV)

  • Para la compresión de vídeo se aplican dos técnicas:

    • Compresión espacial o intraframe: se aprovecha la redundancia de información que hay en la imagen de cada fotograma, como en la imágenes JPEG

    • Compresión temporal o interframe: se aprovecha la redundancia de información que hay entre fotogramas consecutivos.

  • La compresión interframe siempre lleva incluida la intraframe.



Caudal requerido por los sistemas de compresión de vídeo más comunes

Bajo

retardo

Elevado

retardo


Vídeo M-JPEG (Motion JPEG) más comunes

  • Es el más sencillo. Trata el vídeo como una secuencia de fotografías JPEG, sin aprovechar la redundancia entre fotogramas.

  • Algoritmos DCT (Discrete Cosine Transform)

  • Poco eficiente, pero bajo retardo.

  • Usado en:

    • Algunos sistemas de grabación digital y de edición no lineal (edición independiente de cada fotograma)

    • Algunos sistemas de videoconferencia (bajo retardo).

  • No incluye soporte estándar de audio. El audio ha de codificarse por algún otro sistema (p. Ej. CD-DA) y sincronizarse por mecanismos no estándar.


Funcionamiento de más comunesMPEG

Compresión espacial y temporal

Fotogramas

digitalizados

Compresor MPEG

(software o hardware)

La compresión puede o no ser en tiempo real.

Generalmente para hacerla en tiempo real

se requieren compresores en hardware

Flujo MPEG

comprimido


Vídeo MPEG (MPEG-1) más comunes

  • Submuestreo 4:2:0 (25% ahorro respecto 4:2:2)

  • Dos formatos posibles:

    • SIF (Standard Interchange Format): en PAL Y: 352 x 288 pixels, Cr y Cb: 176 x 144 pixels

    • QSIF (Quarter SIF): Y: 176 x 144; Cr y Cb : 88 x 72

  • Dos tipos de compresión (simultáneamente):

    • Espacial: como en JPEG

    • Temporal: se aprovecha la semejanza que cada fotograma tiene con los que le rodean.


Compresión temporal en MPEG más comunes

  • El primer fotograma se digitaliza como una imagen JPEG

  • De los siguientes fotogramas sólo se se digitalizan los cambios respecto al anterior. Para localizar los cambios:

    • Se ‘cuadricula’ la imagen en macrobloques, cada uno formado por 16x16 pixels de Y (8x8 de Cr y 8x8 de Cb)

    • Si se detecta que un macrobloque ha cambiado de sitio esto se indica mediante un vector de movimiento.

  • Una imagen SIF (352x288) está formada por: 352/16 x 288/16 = 22 x 18 = 396 macrobloques


Vídeo MPEG más comunes

  • Tipos de fotogramas:

    • I (Intra): autocontenidos, solo compresión espacial (como JPEG)

    • P (Predictive): referido al P/I anterior. Compresión temporal por extrapolación mediante macrobloques. Un macrobloque pueden ser:

      • Inalterado: no modificado respecto al fotograma de referencia

      • Desplazado: (p. ej. un balón en movimiento) se describe por un vector de movimiento y eventualmente una corrección (diferencia respecto al original)

      • Nuevo: (p. ej. Lo que aparece detrás de una puerta que se abre) se describe por compresión espacial (como un fotograma I)

    • B (Bidireccional): compresión temporal con interpolación; referido al P/I anterior y al P/I posterior. Máxima compresión, máxima complejidad de cálculo. Suaviza la imagen, reduce el ruido.


18 KBytes más comunes

I

18 KBytes

I

18 KBytes

I

I

18 KBytes

I

18 KBytes

Fotogramas I (Intra)

Los fotogramas Intra se codifican de forma autocontenida, sin referirse a otros fotogramas

160 ms

72 KB

25 fotogramas

por segundo

72 x 1024 x 8 / 0,16 = 3,7 Mb/s


18 KB más comunes

I

6 KB

P

6 KB

P

18 KB

I

6 KB

P

6 KB

P

I

18 KB

Fotogramas P (Predictivos)

Los fotogramas Predictivos se codifican usando compensación de movimiento basada en el fotograma I o P anterior

240 ms

60 KB

60 x 1024 x 8 / 0,24 = 2,0 Mb/s


18 KB más comunes

I

4 KB

B

4 KB

B

6 KB

P

4 KB

B

4 KB

B

10

6 KB

P

9

4 KB

B

8

4 KB

B

7

18 KB

I

6

5

4

3

2

1

Fotogramas B (Bidireccionales)

Los fotogramas Bidireccionales se codifican usando compensación de movimiento basada en el I o P mas próximo anterior y posterior

Valores

orientativos

360 ms

54 KB

54 x 1024 x 8 / 0,36 = 1,2Mb/s

Orden de transmisión: 1,4,2,3,7,5,6,10,8,9,…


Comparación fotogramas P y B más comunes

Vector de movimiento

fotograma P

I _ _ P

I

P

0 ms

40 ms

80 ms

120 ms

I P P P

P

P

I

P

0 ms

40 ms

80 ms

120 ms

Vector de desviación fotograma B

I B B P

B

B

I

P

0 ms

40 ms

80 ms

120 ms


Fotogramas MPEG I, P y B más comunes

Vector de movimiento

Macrobloque16X16 Pixels

Fotograma n

Fotograma n+1

Predicción Bidireccional

Área de búsqueda

P

I

B

B

P

B

B

I

B

B

0

2

5

0

1

3

4

2

3

1

Grupo de fotogramas


Vídeo MPEG-1 más comunes

  • Secuencia típica (360 ms): I1 B2 B3 P4 B5 B6 P7 B8 B9 I10

  • Orden codif/decodificación: I1 P4 B2 B3 P7 B5 B6 I10 B8 B9

  • Tamaño típico de fotogramas (SIF, 352 x 288):

    • I: 18 KBytes

    • P: 6 KBytes

    • B: 4 KBytes

    • Caudal medio (IBBPBBPBBI): 1,2 Mbps

    • Con QSIF el caudal se reduce a 300 Kbps

  • Latencia de compresión (valores típicos):

    • M-JPEG: 45 ms

    • MPEG fotogramas I: 200 - 400 ms

    • MPEG fotogramas I y P: 200 - 500 ms

    • MPEG Fotogramas I, P y B: 400 - 850 ms


Caudal de una vídeoconferencia más comunes

Caudal medio: 384 Kb/s

Resolución: 352 x 288 (CIF)

Velocidad de refresco: 30 fps

Caudal

instantáneo

Fotograma I

Fotograma I

600 Kb/s

300 Kb/s

Fotogramas P y B

Tiempo

0 Kb/s

0 ms

100 ms

200 ms

300 ms

400 ms


Audio MPEG-1 más comunes

  • Muestreo mono o estéreo a 32, 44.1(CD) o 48 (DAT) KHz. Si se va a utilizar caudal es reducido es conveniente hacer el muestreo a 32 KHz.

  • Compresión psicoacústica (con pérdidas) asimétrica.

  • De 32 a 448 Kbps por canal de audio

  • Tres capas en orden ascendente de complejidad/calidad:

    • Capa I: buena calidad con 192-256 Kbps por canal; no se utiliza

    • Capa II: calidad CD con 96-128 Kbps por canal

    • Capa III: calidad CD con 64 Kbps por canal

  • Cada capa incorpora nuevos algoritmos, y engloba los de las anteriores.

  • Capa III usada en DAB (Digital Audio Broadcast) y en MP3


Sistema MPEG-1 más comunes

  • Se ocupa de asegurar el sincronismo entre audio y vídeo mediante un sistema de marcas de tiempo (‘timestamps’) en base a un reloj de 90 KHz.

  • Solo es necesario si se utilizan audio y vídeo simultáneamente (no para flujos MP3 por ejemplo)

  • Ocupa poco caudal (5-50 Kbps)


Sincronización de audio y vídeo MPEG más comunes

Flujo de audio digital

con marcas de tiempo

Señal de audio analógica

Codificador

de audio

Multiplexor

del sistema

Flujo MPEG-1

Reloj

de 90 KHz

Codificador

de vídeo

Señal de vídeo analógica

Flujo de vídeo digital

con marcas de tiempo

Durante la decodificación se realiza el proceso inverso


MPEG (Moving Pictures Expert Group) más comunes

  • Grupo de trabajo de ISO que desarrolla estándares de audio-vídeo comprimido:

  • MPEG-1 (1992, ISO 11172)

    • Orientado a vídeo en CD-ROM (vídeo progresivo)

    • Objetivo: Calidad VHS. Caudal típico 1,5 Mb/s

    • Útil para teleenseñanza, aplicaciones de empresa, negocios, etc.

  • MPEG-2 (1996, ISO 13818)

    • Extensión compatible de MPEG-1 ‘hacia arriba’

    • Orientado a teledifusión (vídeo entrelazado)

    • Calidad broadcast, también HDTV. 4-100 Mb/s.

    • Útil para todo tipo de aplicaciones (negocios, entretenimiento, etc.)

  • MPEG-3: Inicialmente pensado para HDTV, finalmente resuelto por reparametrización de MPEG-2.


MPEG-n más comunes

  • MPEG-4 (1998-1999, ISO 14496):

    • Extensión ‘hacia abajo’ de MPEG-1. Orientado a vídeo sobre Internet

    • Útil en el rango 28,8-500 Kb/s. Nuevos algoritmos de compresión

    • Definición de AVOs (objetos audio visuales) similar a VRML

    • MPEG-4 v. 2 (previsto dic. 1999)

  • MPEG-5 y MPEG-6: inexistentes

  • MPEG-7 (aprobado sep. 2001, ISO 15938)

    • Descripción de contenidos audiovisuales (indexación, búsquedas, bases de datos, etc.). Interpreta semántica de la información audiovisual

  • MPEG-21: en fase borrador. Prevista aprobación de IS entre 12/2002 y 9/2004

  • Referencia: http://mpeg.telecomitalialab.com


Vídeo MPEG-2 (I) más comunes

  • Extensión compatible de MPEG-1

  • Diseñado para televisión digital:

    • Optimizado para transmisión, no almacenamiento

    • Prevé vídeo entrelazado (TV) además de progresivo (MPEG-1 era sólo progresivo)

  • Según los valores de los parámetros de muestreo utilizados se definen en MPEG-2 cuatro niveles:

    • Bajo: 352 x 288 (compatible MPEG-1)

    • Principal: 720 x 576 (equivalente CCIR 601)

    • Alto-1440: 1440 x 1152 (HDTV 4:3)

    • Alto: 1920 x 1152 (HDTV 16:9)


Vídeo MPEG-2 (II) más comunes

  • Además de los niveles se definen seis perfiles según el submuestreo y algoritmo de compresión utilizado. Los perfiles posibles son:

    • Simple: para codecs de bajo costo

    • Principal: el más utilizado

    • SNR

    • Espacial

    • Alto

    • 4:2:2

  • No todas las combinaciones nivel-perfil están permitidas

  • Cada combinación tiene un caudal máximo previsto

  • TV digital y DVD utilizan nivel y perfil principal [email protected] (Main Level @ Main Profile)

Para gran calidad


Caudales de Niveles y Perfiles MPEG-2 más comunes

Niveles

Los mostrados son los caudales máximos previstos en el estándar para cada combinación de perfil y nivel.


Audio MPEG-2 más comunes

  • Algoritmos:

    • Versión compatible con MPEG-1 capa I, II y III

    • Sistema de compresión mejorado Advanced Audio Coding (AAC). Calidad comparable a MPEG-1 capa III con el 50-70% de caudal. No compatible con MPEG-1.

  • Canales:

    • Versión estéreo compatible con MPEG-1

      • Independiente (cada canal por separado)

      • Conjunto (aprovecha redundancia entre canales)

    • Soporte multicanal (idiomas) y 5.1 (5 canales más surround)


Vídeo H.26x más comunes

  • Estándares de vídeo la ITU-T para vídeoconferencia: baja velocidad, poco movimiento. Menos acción que en el cine.

    • H.261: Desarrollado a finales de los 80 para RDSI (caudal constante).

    • H.263, H.263+, H.26L. Más modernos y eficientes.

  • Algoritmos de compresión MPEG simplificados:

    • Vectores de movimiento más restringidos (menos acción)

    • En H.261: No fotogramas B (excesiva latencia y complejidad)

  • Menos intensivo de CPU. Factible codec software en tiempo real

  • Submuestreo 4:1:1

  • Resoluciones:

    • CIF (Common Interchange Format): 352 x 288

    • QCIF (Quarter CIF): 176 x 144

    • SCIF (Super CIF): 704 x 576

  • Audio independiente: G.722 (calidad), G.723.1, G.728, G.729

  • Sincronización audio-vídeo mediante H.320 (RDSI) y H.323 (Internet)



Resoluciones de vídeo más comunes

QCIF

SQCIF

CIF

SCIF

16CIF 4:3

16CIF 16:9


Sumario3
Sumario más comunes

  • Teorema de Nyquist. Conversión analógico-digital

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Vídeo bajo demanda

  • Telefonía Internet


Estructura paquete rtp

La cabecera RTP incluye: más comunes

Con esto el receptor puede:

Payload Type

(7 bits)

Identificar el tipo de

información recibida

(ej.: audio G.722)

Número de secuencia

(16 bits)

Ordenar datagramas

recibidos,

detectar perdidos

Timestamp

(32 bits)

Reproducir en el

instante adecuado,

sincronizar audio y vídeo

Estructura paquete RTP

20

12

Variable

8

Cabecera

IP

Cabecera

UDP

Cabecera

RTP

Datos (Audio o Video digital)



Paquetes RTCP más comunes

  • Los paquetes RTCP no llevan información de usuario, solo de control.

  • Pueden ser de varios tipos:

    • SR (Sender Report): ofrece estadísticas de transmisión y recepción de los participantes que son emisores activos.

    • RR (Receiver Report): ofrece estadísticas de recepción de los participantes que no son emisores activos.

    • SDES (Source Description): describe a un emisor activo. Lo utilizan los emisores para anunciarse de manera no ambigua.

    • BYE: Indica el final de la participación

  • Con la información de RTCP los emisores pueden ajustar el caudal según el estado de la red.


Sumario4
Sumario más comunes

  • Teorema de Nyquist. Conversión analógico-digital

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Vídeo bajo demanda

  • Telefonía Internet



V deoconferencia
Vídeoconferencia más comunes

  • Comunicación interactiva por medio de audio, video y compartición de datos

  • Puede ser:

    • Punto a punto

    • Punto a multipunto

    • Multipunto a multipunto


Requisitos caracter sticas de la v deoconferencia
Requisitos/Características de la vídeoconferencia más comunes

  • Compresión/descompresión en tiempo real

  • Retardo máximo 200-400 ms.

  • Movilidad reducida

  • Normalmente aceptable audio de calidad telefónica

  • Necesidad de sincronizar audio y vídeo

  • Necesidad de protocolo de señalización (servicio orientado a conexión)


Est ndares de v deoconferencia
Estándares de Vídeoconferencia más comunes

  • Los sistemas de videoconferencia han sido estandarizados por la ITU-T (International Telecommunications Union – Telecommunications sector) en los estándares de la serie H (sistemas multimedia y audiovisuales)

  • En la serie H hay una gran cantidad de estándares.

  • Los H.32x son estándares de videoconferencia. La ‘x’ depende del tipo de red utilizado


Est ndares h 32x
Estándares H.32x más comunes

Los H.32x son estándares ‘paraguas’. Cada uno de ellos se basa en una serie de estándares previos para especificar todos los servicios necesarios en una vídeoconferencia. Ej.: Codificación de audio G.711


Estándares H.320 y H.323 más comunes

RDSI

IP


Vídeoconferencia H.320 más comunes

RDSI

3*BRI

Sistema de grupo o sala

3*BRI

Polycom

Picturetel

Flujo de audio-vídeo

128 - 384 Kb/s

Dirección E.164: 963983542

Dirección E.164: 963865420


Vídeoconferencia H.323 más comunes

Internet

Sistema de

sobremesa

10BASE-T

ADSL

Polycom,

Tandberg

Microsoft

Netmeeting,

Polycom ViaVideo

Flujo de audio-vídeo

14,4 - 512 Kb/s

Dirección IP: 147.156.1.20

Dirección IP: 172.68.135.22


Terminales de vídeoconferencia más comunes

Polycom ViaVideo

Video: H.261, H.263, H.263+

Audio: G.711, G.722, G.728, G.723.1

Caudal: 32-384 Kb/s (H.323)

Formatos: CIF, QCIF

Peso: 250 g

Conexiones ent./sal.: USB, audio

Precio: 500 euros

Polycom ViewStation SP128

Video: H.261, H.263+

Audio: G.711, G.722, G.728

Caudal: 56-128 Kb/s (H.320), 56-768 Kb/s (H.323)

Formatos: CIF, QCIF

Peso: 2,7 Kg

Conexiones ent./sal.: video v audio

Precio: 5.000 euros


GK más comunes

Vídeoconferencia H.323: Gatekeeper

Luis

147.156.3.12

5112

Laura

147.156.4.15

5113

Internet

Ana

147.156.7.45

5114

Pedro

147.156.1.20

5111

5111 Pedro 147.156.1.20

5112 Luis 147.156.3.12

5113 Laura 147.156.4.15

5114 Ana 147.156.7.45



Formatos de audio h 32x
Formatos de audio H.32x más comunes

MPEG no es un formato de audio H.323. Solo aparece a título comparativo


Terminales h 323
Terminales H.323 más comunes

Teléfono IP

Red IP

Sistema de grupo o sala

Sistema de

sobremesa

Lo único obligatorio en un terminal H.323 es la parte de audio


Arquitectura terminal h 323
Arquitectura terminal H.323 más comunes

Equipo e/s

de vídeo

Codec Video

H.261, H.263

Retardo

trayecto

Recepción

(Sync)

Capa

H.225

UDP

RTP

RTCP

IP

Equipo e/s

de audio

Codec Audio

G.711, G.722,

G.723, G.728,

G.729

Datos usuario

Aplicaciones

T.120, etc.

TCP

Control del sistema

Control H.245

Interfaz de

usuario para

control

del sistema

H.225.0 Control

llamada

UDP

H.225.0 Control

RAS


Se alizaci n h 323
Señalización H.323 más comunes

Petición de admisión

RAS

GK

Confirmación de admisión

Gatekeeper

Inicio

Terminal H.323

H.225

(Q.931)

Conexión

Intercambio de capacidades

Terminal H.323

Apertura de canal lógico

H.245

ACK de apertura de canal lógico

Path

RSVP

(opcional)

Resv

Flujo RTP

Flujo RTP

Medio

Flujo RTCP


Sumario5
Sumario más comunes

  • Teorema de Nyquist. Conversión analógico-digital

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Vídeo bajo demanda

  • Telefonía Internet


Elementos de v deoconferencia
Elementos de vídeoconferencia más comunes

  • Terminal: es el equipo que utiliza el usuario para comunicarse

  • Gateway, pasarela o puerta de enlace: interconecta redes diferentes: H.320 (RDSI) e Internet (H.323)

  • Gatekeeper o equipo selector: permite el control de acceso. Realiza la equivalencia de direcciones IP a direcciones E.164 o usuarios

  • MCU, Multipoint Control Unit o Unidad de control multipunto: replica un flujo de audio/video para permitir multiconferencia


Funciones del gatekeeper
Funciones del Gatekeeper más comunes

  • Obligatorias:

    • Traducción de direcciones IP a E.164 o userid (alias)

    • Control de Admisión: en función de los recursos disponibles (ancho de banda, etc.)

    • Gestión de ancho de banda: controla número de terminales accediendo simultáneamente

  • Opcionales

    • Señalización de control: el gatekeeper puede efectuar la señalización de llamada

    • Autorización de llamada: acepta o rechaza la llamada en base a autorización del usuario

    • Gestión de llamada: mantiene una lista de llamadas activas


GK más comunes

GK

GK

GK

Zonas de Gatekeeper

Zona 1

Prefijo 56

Zona 3

Prefijo 48

Zona: conjunto formado por los terminales, gateways, y MCUs gestionados por un gatekeeper

WAN IP

Zona 2

Prefijo 73

Las zonas de Gatekeeper son areas lógicas que reflejan la topología de la red y simplifican las tareas administrativas


Arrancar Netmeetig más comunes

GW 147.156.2.69

Llamar a 963972386

Pasarela (Gateway) H.320-H.323

147.156.2.15

963972386

ADSL

BRI

147.156.2.69

963171500

PRI

RDSI

Internet

GW

Gateway o

‘puerta de enlace’


Funciones gateway h 323
Funciones Gateway H.323 más comunes

  • Interoperabilidad entre audio/vídeo y estándares de red

  • Conversión de protocolo

    • Procedimientos de comunicación

    • Formatos de transmisión

  • Opcionalmente: Transcodificación (conversión de formatos audio/video)


Arquitectura gateway h 320 h 323
Arquitectura Gateway H.320-H.323 más comunes

H

.

3

2

3

Control de

llamada

IVR

H

.

3

2

0

H.245

H.225

H.242

Q.931

IP

RDSI

Video

Audio

Datos T.120


Llamar a más comunes

963171500 ext. 60

Gateway/Gatekeeper, llamada entrante

147.156.2.15

963972386

Arrancar Netmeeting

GK: 158.42.5.96

Usuario: Alicia

Número de tel.: 60

ADSL

BRI

147.156.2.69

963171500

RDSI

Internet

GW

PRI

¿ext. 60?

60 = 147.156.2.15

158.42.5.96

Gatekeeper o

‘equipo selector’

GK

Usuario IP Ext.

Alicia 147.156.2.15 60


Arrancar Netmeeting más comunes

GK: 158.42.5.96

Usuario: Alicia

Número de tel.: 60

Usar GW 147.156.2.69

Llamar al 963972386

Gateway/Gatekeeper, llamada saliente

147.156.2.15

963972386

ADSL

BRI

147.156.2.69

963171500

RDSI

Internet

GW

PRI

Registro

Gatekeeper

158.42.5.96

GK

Usuario IP Ext.

Alicia 147.156.2.15 60


Procedimientos de llamada v a gateway gatekeeper
Procedimientos de llamada vía Gateway/Gatekeeper más comunes

  • Respuesta de voz interactiva (IVR, Interactive Voice Response):

    • Marco 96-386-3500 y dice: ‘si sabe la extensión tecleela con un cero delante, si no espere y le atenderá la operadora’.

  • Extensión por defecto:

    • Todas las llamadas se encaminan a una extensión determinada.

  • Llamada directa del exterior:

    • Cada extensión recibe un número directo del exterior. Ej.: 96-386-3563 llama a la extensión 3563. Requiere obtener números extra del operador.

  • Enrutamiento TCS4:

    • La extensión se marca detrás del número: 96-386-3500#3563 llama a la extensión 3563. No disponible en España (los números extra se ignoran).


Necesidades de la v deoconferencia
Necesidades de la vídeoconferencia más comunes

  • Caudal:

    • El teóricamente necesario más un 10-20% como mínimo

  • Retardo:

    • Para telefonía de calidad: <150 ms extremo a extremo (recomendación ITU G.114)

    • Para videoconferencia: < 400 ms

  • Pérdida de paquetes:

    • Menor del 1% (hay que evitar la congestión)


Flujos de audio-vídeo más comunes

unidireccionales de 384 Kb/s

Vídeoconferencia multipunto H.320

Emisor

Receptor

3*BRI

3*BRI

RDSI

3*BRI

3*BRI

PRI

Receptor

Receptor

MCU

Servidor MCU

(Multipoint Control Unit)

Replica el flujo de audio/vídeo

para cada participante.

Posible cuello de botella


Vídeoc más comunesonferencia multipunto H.323

Internet

MCU

MCU H.323

(Multipoint Control Unit)

Replica el flujo de audio/vídeo

para cada participante.

Posible cuello de botella


Arquitectura de mcu h 323
Arquitectura de MCU H.323 más comunes

Mezclador de audio

Control de imagen

de vídeo

T.120

Activación por voz

Mezclador de audio

Presencia continua


Arquitectura de mcu h 3231
Arquitectura de MCU H.323 más comunes

Petición de conferencia

  • Control de la Conferencia

    • Entrada/salida

    • Asignación/ubicación de recursos

    • Sentido de la llamada

Controlador Multipunto

Aceptación

Flujos de audio/video

hacia/desde los

participantes

Procesador Multipunto

  • Proceso de Medios

    • Mezcla de audio

    • Selección de participantes activos

    • Generación de imagen de vídeo

Procesador Multipunto

Procesador Multipunto

Procesador Multipunto

Procesador Multipunto


Flujos H.263 de 384 Kb/s más comunes

Flujo H.261

de 128 Kb/s

Transcodificación

Valencia

Bilbao

3*BRI

3*BRI

RDSI

BRI

3*BRI

Terminal sin

soporte H.263

PRI

MCU

MCU con transcodificacion

La transcodificación ha de hacerse en

tiempo real y es labor intensiva de CPU

Toulouse

Atenas


Gatekeeper, Gateway y MCUs más comunes

MCU H.323

MCU

BRI

RDSI

Internet

GW

PRI

Pasarela

PRI

3*BRI

GK

MCU

Gatekeeper

MCU H.320 con

transcodificación


Flujo de audio-vídeo más comunes

multicast de 192 Kb/s

Vídeoconferencia multipunto multicast

MBone

Flujo replicado por los routers.

No hay cuellos de botella.


Flujo unicast más comunes

a/v 100 Kb/s

Flujos multicast

a/v 192 Kb/s

Flujo unicast

a/v 192 Kb/s

Multicast-unicast con transcodificación

RDSI BRI

Línea E1

Internet

Luis

Alicia

Usuario sin soporte multicast

Línea E1

ADSL

256 Kb/s

Juan

Pedro

Pasarela multicast-unicast

con transcodificación

Usuario sin soporte multicast

Usuario con

soporte multicast


Sumario6
Sumario más comunes

  • Teorema de Nyquist. Conversión analógico-digital

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Vídeo bajo demanda

  • Telefonía Internet


Videodifusión y v más comunesídeo bajo demanda

Los contenidos no se generan en tiempo real (CODEC software)

MS Win. Media Server

Cisco IP/TV

SGI MediaBase

Etc.

Servidor de vídeo

128-512 Kb/s

Internet

Usuarios remotos (MPEG-4)

Emisiones unicast y multicast

Usuarios locales

(MPEG-1-2-4)



Distribu más comunesción de vídeo en directo

CODEC H.26x

CODEC MPEG

Internet


Program más comunesa

Formación 3

Guía de

programas

Programa

Formación 3

Program

Formación 2

Programa

Formación 1

Programa

Formación 1

TV en red de datos, formación continua

Videoteca cursos de

formación en MPEG-2 y 4

Servidor de Vídeo Windows

Media Server, IP/TV, etc.

Presentaciones

en directo H.26x

WAN

MPEG-4, H.263

LAN

MPEG-2, H.261

Training

Program 3

Training

Program 2

Training

Program 1

Cursos programados regularmente y

emitidos por multicast varias veces por semana


Diferencia entre vídeoconferencia y vídeo streaming más comunes

La vídeoconferencia requiere un servicio de mayor calidad que el vídeo streaming

Ejemplo de servicio de vídeo streaming:

www.catv.org/frame/cmur_streaming.html


Sumario7
Sumario más comunes

  • Teorema de Nyquist. Conversión analógico-digital

  • Audio digital. Estándares. Compresión

  • Vídeo digital. Estándares. Compresión

  • Protocolos RTP y RTCP

  • Vídeoconferencia. Estándares H.32x

  • Pasarelas e Interoperabilidad

  • Vídeo bajo demanda

  • Telefonía Internet


Telefon a sobre internet
Telefonía sobre Internet más comunes

  • Pretende aprovechar la red IP para la comunicación telefónica

  • Requiere una red con bajo retardo y caudal garantizado (QoS)

  • Además de digitalizar la voz es necesario ofrecer todas las funciones propias de una red telefónica:

    • Señalización

    • Funciones avanzadas: reenvío de llamadas, mensajería, etc.


Evolución de la telefonía más comunes

Red Telefónica

Telefonía Tradicional

Red IP

Telefonía tradicional sobre backbone IP

Call Manager

Call Manager

Red IP

Telefonía IP


Ejemplo de telefon a ip

Red Telefónicapública más comunes

Red Telefónicapública

Red Telefónicapública

Ejemplo de telefonía IP

1

1

A 0976* por 1

A 0* por 2

Resto por 1

A 0923* por 1

A 0* por 2

Resto por 1

3

3

2

2

Salamanca

Zaragoza

Pamplona


CONS vs CLNS más comunes

Dir. E.164: 2001

Dir. E.164: 1001

Red Telefónica

En caso de fallo la red telefónica no se recupera de forma automática

Dir. E.164: 1001

Dir. IP: 136.12.15.32

Dir. E.164: 2001

Dir. IP: 158.35.23.1

Red IP

En caso de fallo la red IP reenvía los paquetes por una ruta alternativa.


Ejemplo de red de telefonía IP compleja más comunes

Red Telefónica

Sucursal ‘Antigua’

Oficina Principal

Red IP

Teletrabajador

Sucursal ‘Moderna’


Telefonía I más comunesnternet

Para ahorrar costos el gatekeeper elige la pasarela más próxima al destinatario.

GK

Línea dedicada

Gateway H.323

(solo voz)

Internet

Red Telefónicaconmutada

Modem

RDSI

Red CATV

Red

analógica

Cabecera

Cable Modem

GSM

Red ADSL

Modem ADSL


Telefon a sobre internet1
Telefonía sobre Internet más comunes

  • Un terminal H.323 solo está obligado a soportar audio, el vídeo es opcional

  • Por tanto con H.323 y gateways podemos ofrecer telefonía Internet sin tener que aprobar nuevos estándares

  • Sin embargo H.323 es un estándar muy complejo. Por ello el IETF ha aprobado un estándar alternativo específicamente diseñado para telefonía mucho más sencillo conocido como SIP


Telefon a ip
Telefonía IP más comunes

  • Ventajas:

    • Reducción de distancias (y costes) en la red telefónica

    • Fácil enrutamiento alternativo en caso de averías en la red (servicio no orientado a conexión)

    • Compresión de la voz (G.729, G.723.1)

    • Supresión de silencios

    • Posibilidad de ofrecer servicios de voz de alta calidad (G.722, 7 KHz)

  • Inconvenientes

    • Degradación de la calidad cuando hay congestión (si no hay QoS).

    • Mayores retardos (>200ms), posibles problemas de ecos


LAN con telefonía IP H.323 más comunes

WAN con QoS

(DiffServ o IntServ)

Call Manager

(Gestor de telefonía IP)

(Servidor Windows/XP)

Las tramas del teléfono van en una VLAN de alta prioridad (se usa 802.1p y 802.1Q)

Tramas H.323 con alta prioridad (802.1p)

El teléfono recibe alimentación eléctrica desde el switch LAN.

Él mismo actúa como un switch de dos puertos 10/100

Teléfono software

(Netmeeting, GnomeMeeting, Softphone, etc.)


Teléfonos IP más comunes

Hard

Soft

OpenPhone

http://www.openh323.org/code.html

Precio: 0 euros

Cisco 7905

Audio G.711 y G.729a

Precio: 200 euros

Cisco SoftPhone

Audio G.711, G.723.1 y G.729a

Precio: 150 euros

Cisco 7960G

Audio G.711 y G.729a

Incorpora conmutador de dos puertos 10/100

Precio: 500 euros


Compresión de cabeceras RTP más comunes

  • Los paquetes de voz no pueden ser muy grandes (retardo de serialización)

  • G.729 genera 8 Kb/s (20 bytes cada 20 ms)

  • Cabeceras:

    • IP: 20 bytes

    • UDP: 8 bytes

    • RTP: 12 bytes

  • 200% de overhead. La mayoría de los campos son constantes

  • La compresión de cabeceras reduce a 2-4 bytes


Telefon a y calidad de servicio
Telefonía y Calidad de Servicio más comunes

  • La telefonía es muy exigente con el retardo y el jitter

  • Para asegurar la QoS necesaria hay que disponer de DiffServ o IntServ

  • En enlaces de baja velocidad el retardo de serialización de paquetes grandes puede hacer inviable la telefonía, aun teniendo QoS

  • Para evitarlo se puede forzar una MTU menor de 1500 bytes


Retardo de serialización más comunesvs velocidad y tamaño de paquete

Tamaño de

fragmento

(para retardo de 20 ms)

Retardo de serialización


Encolamiento en un router con QoS más comunes

Voz

Vo

Vo

Vídeo

Vi

Vi

NU

NU

NU

NU

Ur

Ur

Vi

Vi

Vo

Vo

Datos urgentes

Ur

Ur

Datos no urg.

NU

NU

NU

NU

Subsistema de colas de nivel 3

Subsistema de colas de nivel 2

Encolamiento de baja latencia

PQ voz

Política

PQ voz

TX

Ring

Salida

Paquetes

Interleave

Entrada

Paquetes

Clase X

CBWFQ

Fragmento

Clase Y

WFQ

Default

WFQ: Weighted Fair Queuing

CBWFQ: Customer Based Weighted Fair Queuing


Sip session initiation protocol
SIP (Session Initiation Protocol) más comunes

  • Protocolo alternativo al H.323 para telefonía sobre Internet

  • Desarrollado por el grupo de trabajo MMUSIC del IETF (RFC2543, 3/99, 153 pág.)

  • Direcciones E.164 o URLs (como direcciones de e-mail)

  • Página principal del SIP: Universidad de Columbia: http://www.cs.columbia.edu/~hgs/sip


Componentes de sip
Componentes de SIP más comunes

  • UA (Agente de usuario): Teléfonos SIP, Gateways, PDAs

  • UAC (User Agent Client): el que inicia una llamada

  • UAS (User Agent Server): el que recibe la llamada

  • Servidores:

    • Proxy Server: el que actúa como intermediario, en representación de otro para efectuar una llamada

    • Redirect Server: traduce una dirección en otra u otras

    • Registrar: el que acepta peticiones REGISTER

    • Location Server: el que facilita información al Proxy o Redirect sobre la ubicación del destinatatrio de una llamada


Referencias
Referencias más comunes

  • Godred Fairhurst: Digital Televisión: The MPEG-2 Standard: http://www.erg.abdn.ac.uk/users/gorry/level2dp.pdf

  • Godred Fairhurst: MPEG-2 Digital Video:http://www.erg.abdn.ac.uk/public_html/research/future-net/digital-video/index.html

  • http://mpeg.telecomitalialab.com/

  • Página principal del proyecto OpenH323: http://www.openh323.org. Interesante fuente de información sobre H.323, implementaciones y servicios relacionados (gateways, gatekeepers, sistemas de respuesta automatizada, etc.) para Linux y Windows. Todo gratuito y con los códigos fuente disponibles.

  • http://www.openphone.org/


ad