تکنیک‌های بنیادی فشرده سازی ویدئو

تکنیک‌های بنیادی فشرده سازی ویدئو درس سیستم‌های چند رسانه‌ای استاد درس: علی بهلولی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

فشرده سازی تصویر مقدمه‌ای بر فشرده سازی ویدئویی فشرده سازی ویدئویی توسط انطباق حرکتیجستجوی بردارهای حرکتیاستاندارد H.261استاندارد H.263 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

مقدمه‌ای بر فشرده سازی ویدئویی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • ویدئو متشکل از سکانس های دارای اولویت زمانی از فریم هایی(یعنی تصاویر) هستند. • یک راه حل واضح برای فشرده سازی ویدئویی ،پیشگویی مبتنی بر فریم های قبلی می باشد. • فشرده سازی با کم کردن فریم از فریم قبلی وکد کردن تفاضل آنها • برای بهبود فشرده سازی می توان به جای تفاضل پیکسل به پیکسل، الگوی خاصی از فریم فعلی را در فریم بعدی جستجو کنیم و آن دو را از هم کم کنیم

فشرده سازی ویدئویی توسط انطباق حرکتی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای فریم های متوالی در یک ویدئو ، مشابه هستند – افزونگی زمانی وجود دارد. از افزونگی زمانی(Temporal redundancy) استفاده می شود تا نیاز نباشد هر فریم از ویدئو بطور مستقل به عنوان یک تصویر جدید کدگذاری شود. تفاوت بین فریم فعلی و سایر فریم ها در توالی مربوطه کدگذاری خواهد شد – تعداد بیت کمتر وآنتروپی کمتربرای فشرده سازی مناسب می باشد.

فشرده سازی ویدئویی توسط انطباق حرکتی • مراحل فشرده سازی ویدئویی بر اساس انطباق حرکتی(MC ): (Motion Compensation) 1- برآورد حرکت (جستجوی بردار حرکت). 2- پیش بینی مبتنی برMC. 3- بدست آوردن خطای پیش بینی یعنی تفاوت. دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

انطباق حرکتی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای هر تصویر به ماکروبلاکهایی (macro blocks) در اندازه N x Nتقسیم می شود. به عنوان پیش فرض: N =16 برای مولفه روشنایی(y ) . برای مولفه رنگ (chrominance ) ، N =8 می باشد با فرض اینکه از فشرده سازی نوع 4:2:0 استفاده شده باشد. انطباق حرکتی در سطح ماکروبلاک انجام می شود. به فریم تصویر فعلی ”فریم هدف“ گفته می شود.(Target)

انطباق حرکتی • سازگاری بین ماکروبلاک در فریم هدف و مشابه ترین ماکروبلاک در فریم های قبلی و یا آتی (که به آنها فریم مرجع گفته می شود) جستجو می شود. • به فاصله ماکروبلاک مرجع تا ماکروبلاک هدف ، بردار حرکتی MV گفته می شود. • شکل 10-1مورد پیش بینی رو به جلو را نشان می دهد دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

انطباق حرکتی شکل 10-1 : ماکروبلاکها و بردارهای حرکت در فشرده سازی ویدئویی • جستجوی MV معمولا در محدوده همسایگی بسیار نزدیک انجام می شود – اندازه جابجایی عمودی و افقی در محدوده [-p,p] هستند این امر پنجره جستجو را به اندازه (2p+1)*(2p+1) می رساند. دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

جستجوی بردارهای حرکتی N: اندازه ماکروبلاک K و L : شاخص های پیکسل ها در ماکروبلاک i و j: جابجایی های عمودی و افقی C ( x + k, y + l ) : پیکسل های موجود در ماکروبلاک در فریم هدف R ( x + i + k, y + j + l ): پیکسل های موجود در ماکروبلاک در فریم مرجع • هدف این جستجو پیدا کردن یک بردار (i,j) به عنوان بردار حرکتی MV = (u, v) به صورتی است که MAD(i, j) حداقل باشد. دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • تفاوت بین دو ماکروبلاک را می توان توسط میانگین قدر مطلق تفاضل آنها (MAD) اندازه گرفت:

جستجوی ترتیبی • جستجوی ترتیبی: کل پنجره(2p+ 1) x (2p+ 1) در فریم مرجع را به ترتیب جستجو کنید.(همچنین به آن جستجوی کامل هم گفته می شود). • ماکروبلاکی که در هر یک از وضعیتها در مرکز پنجره قرار گرفته است با ماکروبلاک در فریم هدف بصورت پیکسل به پیکسل مقایسه می شود و بنابراین MAD مربوطه شان با استفاده از فرمول (10.1) بدست می آید. دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

جستجوی ترتیبی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • بردار(i, j) که کمترین MAD را ارائه می دهد به عنوانMV (u, v) برای ماکروبلاک در فریم هدف در نظر گرفته می شود. • روش جستجوی ترتیبی بسیار زمانبر است – با فرض اینکه مقایسه هر پیکسل مستلزم 3 عمل می باشد(تفریق ، قدر مطلق، جمع کردن) ، هزینه بدست آوردن یک بردار حرکت برای یک ماکروبلاک به صورت زیر است (2p+ 1). (2p+ 1) . N2. 3  O ( p2 N2 )

برنامه جستجوی ترتیبی begin min_MAD= LARGE NUMBER; /* Initialization */ for i= −p to p for j = −p to p { cur_MAD= MAD(i, j); if cur_MAD < min_MAD { min_MAD= cur_MAD; u = i; /* Get the coordinates for MV. */ v = j; } } end دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

جستجوی لگاریتمی دو بعدی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • جستجوی لگاریتمی:مدل سریعتر و نیمه بهینه است ولی معمولا“ قابل استفاده است. • رویه جستجوی لگاریتمی دو بعدی شبیه جستجوی باینری است. • همانطور که در شکل 2-10 نشان داده شده است در ابتدا فقط 9 مکان در پنجره جستجو به عنوان نقطه های شروع برای یک جستجوی مبتنی بر MAD استفاده می شود; آنها با ”1“ علامت گذاری می شوند. • پس از اینکه پنجره ای که کمترین MAD را حاصل می کند شناسایی می شود مرکز منطقه جستجوی جدید به آن انتقال داده می شود و محدوده جستجو به نصف کاهش داده می شود. • در تکرار بعدی 9 مکان با ”2“ علامتگذاری می شود و ....(به همین ترتیب).

جستجوی لگاریتمی دو بعدی شکل 10-2 جستجوی لگاریتمی 2D برای بردارهای حرکتی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

جستجوی سلسله مراتبی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • در صورتی که رزولوشن فریم ها را کاهش دهیم آنگاه جستجو سریعتر انجام می شود • برای اینکه سرعت و دقت را با هم داشته باشیم می توان چند سطح مختلف را در نظر بگیریم که به ترتیب در سطح های پایین تر رزولوشن کاهش و امکان یافتن بردار حرکتی کاهش می یابد ولی سرعت جستجو بیشتر می شود. جستجو از پایین ترین سطح شروع می شود • از آنجایی که اندازه ماکروبلاک کوچکتر است و P همچنین می تواند بطور نسبی کاهش داده شود تعداد عملیات لازم به مقدار زیادی کم می شود.

جستجوی سلسله مراتبی شکل 10-3 یک جستجوی سلسله مراتبی 3 سطحی برای بردارهای حرکتی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

مقایسه سه روش ذکر شده تعداد عملیاتهای ریاضی در هر ثانیه برای سه روش ذکر شده نمایش داده شده است دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

استانداردH.261 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • H.261 : از قدیمی ترین استانداردهای فشرده سازی دیجیتالی ویدئویی می باشد ، فشرده سازی مبتنی بر MC است که در همه استانداردهای فشرده سازی ویدئویی بعدی نیز مورد استفاده قرار گرفته شده است. • این استاندارد برای videophoneو video conferencing و سایر خدمات سمعی بصری از طریق ISDN طراحی شده بود. • video codec از نرخهای px64 kbps حمایت میکند که p بین 1 تا30 می تواند باشد.(این روش به عنوان p * 64 هم معروف است ) . • لازم است که تاخیر کدگذار ویدئویی کمتر از 150 میلی ثانیه باشد تا اینکه ویدئو بتواند برای video conferencing بلادرنگ دو طرفه استفاده شود.

فرمت‌های ویدئویی پشتیبانی شده توسطH.261 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

فریمها و ترتیب آنها در H.261 شکل 4-10 : ترتیب فریم H.261 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

فریم ها در H.261 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • دو نوع فریم تصویری تعریف شده است : درون فریمی (I-frames) و میان فریمی (p-frames) : • (I-frames) بعنوان تصاویر مستقل در نظر گرفته می شود . در هر (I-frames)از روش کدگذاری مشابه JPEG استفاده می کند. • (p-frames) مستقل نیستند . توسط روش کدگذاری پیشگویانه رو به جلو کدگذاری می شود (پیشگویی از p-frames قبلی نیز مجاز می باشد – نه فقط از یک I-frames قبلی). • در p-frames ها افزونگی زمانی حذف می‌شود در حالیکه در I_frame ، فقط افزونگی مکانی با استفاده از تبدیل DCT حذف می شود

فریم ها در H.261 • علل استفاده از i-Frame ها • در صورت روشن کردن دستگاه پخش ویدئو، در حین پخش، امکان دیکد وجود داشته باشد • جهت اجتناب از انتشار خطاهای کدگذاری معمولا یک I-frame چندین باردر هر ثانیه از ویدئو فرستاده می شود . • هنگام جلو و عقب بردن نیاز به انجام همه پردازشها نباشد • بردارهای حرکتی در H.261 همیشه در واحد پیکسل اندازه گیری می‌شوند و دامنه محدوده آن 15± است دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

کدگذاری I-frame: • شکل 10-5 کد گذاری I-Frame • ماکروبلاک ها به اندازه پیکسل های 16×16 برای فریم y و 8×8برای فریم های Cb and Cr هستند چون از روش4:2:0استفاده می شود. یک ماکروبلاک شامل 4 بلاک Y ، یک Cb و یک Cr است • برای هر بلاک 8×8یک تبدیلDCT استفاده می شود. سپس ضریب های DCT کوانتیزه شده و نهایتا کد گذاری آنتروپی می شوند. دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

کدگذاری p-frame دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • شکل 6-10 ، طرح کدگذاری p-frame ،H.261 را مبتنی بر انطباق حرکتی نشان میدهد: • برای هر ماکروبلاک در فریم هدف یک بردار حرکتی توسط یکی از روش های جستجو که قبلا توضیح داده شد اختصاص داده می شود . • پس از پیشگویی یک ماکروبلاک ، مقدار تفاضل محاسبه می شود • از هر یک از این بلاک های 8×8 تبدیل DCT گرفته می شود ، سپس ضریب های DCT کوانتیزه شده و نهایتا کد گذاری آنتروپی می شوند.

کدگذاری p-frame • در p-frame مقدار تفاضل بین فریم و فریم بعدی کد می شود (نه خود ماکروبلاک هدف) • گاهی اوقات نمی توان به انطباق مناسب دست یافت یعنی خطای پیشگویی از یک سطح قابل قبول خاص بیشتر می شود. • بنابراین خود MB کدگذاری می شود( که به عنوان MB درونی در نظر گرفته می شود) و در چنین موردی یک MB منطبق شده غیر حرکتی نامیده می شود. • برای یک بردار حرکتی MVD مقدار تفاضل بدست آمده برای کدگذاری آنتروپی فرستاده می شود: (3-10) MVD = MVPreceding− MVCurrent دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

کدگذاری p-frame ، مبتنی بر انطباق حرکتی شکل 10-6: کد گذاری P-Frame ، H.261 مبتنی بر انطباق حرکتی دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

کوانتیزاسیون در H.261 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • برای کوانتیزاسیون در H.261 ، برای همه ضریب های DCT در داخل یک ماکروبلاک از یک گام ثابت استفاده می کند. • اگر QDCT ضرایب DCT بعد از کوانتیزه کردن باشد: برای ضریب مقدار DC از رابطه زیر (10.4) و برای سایر ضریب ها: (10.5) Scale یک عدد صحیح در محدوده [1,31] است

بلاک دیاگرام کد کننده در H.261 شکل 10-7 کدینگ H.261 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

بلاک دیاگرام دیکد کننده در H.261 کدگذار و کدبرادر H.261 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

استاندارد H.263 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای • H.263 ، یک استاندارد کدگذاری ویدئویی اصلاح شده برای ویدئو کنفرانس و سایر خدمات سمعی – بصری انتقال داده شده در شبکه های تلفنی انتقال عمومی (PSTN) می باشد. • هدفش ارتباط و انتقال های با میزان بیت پایین به میزانی کمتر از kbps64 می باشد. • از کدگذاری پیش گویانه برای inter-frames(p-frames) جهت کاهش افزونگی موقتی و تغییر شکل کدگذاری برای سیگنال باقیمانده استفاده میکند تا افزونگی فاصله ای (برای پیش بینیP-frames و i-frames) را کاهش دهد.

استاندارد H.263 مانند H.261 در H.263 از کدگذاری طول متغیر (VLC) به عنوان روش کدگذاری پیش فرض برای ضریب های DCT استفاده می شود. همانند H.261 ترتیب H.263 بصورت سلسله مراتبی از 4 لایه ساخته شده است . هر لایه با استفاده از ترکیبی از کد طول ثابت و کد طول متغیر کدگذاری می شود . روش پیش بینی پیشرفته: - در این روش اندازه ماکروبلاک برای MC از 16 به 8 کاهش داده می شود . - برای هر ماکروبلاک در تصویر مربوط به شدت روشنایی ، 4 بردار حرکتی (از هر بلاک 8×8 ) ایجاد می شود. دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

استاندارد H.263 استفاده از فریم های-PB: • در H.263 ، یک فریم PB از فریم قبلی و بعدی بدست می آید دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

استاندارد Mpeg • این استاندارد بر پایه استاندارد H261 بنا نهاده شده است • تفاوتهای عمده آن با H-261 عبارتند از: • پشتیبانی از فرمت های بیشتر ویدئویی • ضرایب استفاده شده در کوانتیزه کردن متفاوت است • بازه جستجوی ماکروبلاک از 15 به 512 تغییر یافته است • ترتیب فریمها ارسال شده متفاوت است دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

ترتیب فریمها در Mpeg-1 دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

پایان دانشگاه اصفهان - درس سیستم‌های چندرسانه‌ای

تکنیک‌های بنیادی فشرده سازی ویدئو

تکنیک‌های بنیادی فشرده سازی ویدئو

Presentation Transcript