830 likes | 1.13k Views
第 4 章 内容的表达和元数据. 刘士军 lsj@sdu.edu.cn. 摘要. 元数据是内容管理系统中不可或缺的部分,它被定义为 “ 有关数据的数据 ” 元数据从不同方面描述内容对象,这对于按需随时管理、搜索、查找、检索内容信息是很重要的 除了纯粹的描述和检索以外,元数据还管理着内容的内部组织和对外组织关系方式;以及信息交换和信息转译交换所需要的标准 在内容管理系统中,针对不同方面的应用要使用不同的内容表示方案. 元数据无处不在.
E N D
第4章 内容的表达和元数据 刘士军 lsj@sdu.edu.cn
摘要 • 元数据是内容管理系统中不可或缺的部分,它被定义为“有关数据的数据” • 元数据从不同方面描述内容对象,这对于按需随时管理、搜索、查找、检索内容信息是很重要的 • 除了纯粹的描述和检索以外,元数据还管理着内容的内部组织和对外组织关系方式;以及信息交换和信息转译交换所需要的标准 • 在内容管理系统中,针对不同方面的应用要使用不同的内容表示方案 数字媒体资产管理
元数据无处不在 • The world of industry is extremely diverse, therefore only a very small number of activities are mentioned below: • RosettaNet • UDDI (Universal Description, Discovery and Integration) • OASIS - XML.org • BizTalk • Basic Semantic Repository 数字媒体资产管理
Flickr相机搜寻器 http://www.flickr.com/cameras/ 数字媒体资产管理
Exif 标准 • EXIF(Exchangeable image file format)是可交换图像文件的缩写,是专门为数码相机的照片设定的,可以记录数码照片的属性信息和拍摄数据。 • EXIF最初由日本电子工业发展协会在1996年制定,版本为1.0。1998年,升级到2.1,增加了对音频文件的支持。2002年3月,发表了2.2版 • EXIF可以附加于图像文件之中,为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件的版本信息 数字媒体资产管理
GPS元数据 照片中的地理元数据越来越受到关注和支持 数字媒体资产管理
数码相机GPS地理附件 • 2006年初推出的理光数码相机Pro G3,是发布较早的具有GPS定位功能的数码相机 • 索尼GPS-CS3KA,它可以向相机提供拍摄相片时的地理信息。按下快门将照片保存到该设备的MS和SD卡的同时,照片标签中也将有卫星定位提供的数据 数字媒体资产管理
IMDB电影元数据 • http://www.imdb.com/ • IMDB本身也定义了一套元数据,用来描述每一部电影。下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影: • Cast and Crew(演职人员) • Company Credits(相关公司) • Basic Data(基本情况) • Plot & Quotes(情节和引语) • Fun Stuff(趣味信息) • Links to Other Sites(外部链接) • Box Office and Business(票房和商业开发) • Technical Info(技术信息) • Literature(书面内容) • Other Data(其他信息) 数字媒体资产管理
Metadata in Digital Media Value Chain • Life-cycle: • Increase content asset value through repurposing • Metadata layer: • First-class role of metadata (smart bits) throughout digital media lifecycle • Central role of metadata management (XML schemas, catalog records, ontologies) • Digital media metadata access functions: • Create: search, annotate, extract • Manage: index, annotate, collate • Transact/Distribute: search, package, adapt 数字媒体资产管理
本章内容 • 4.1 内容的表示 • 4.2 内容的描述 • 4.3 获取和使用元数据 • 4.4 元数据描述方案 • 4.5 元数据交换和传输标准 • 4.6 文件格式 数字媒体资产管理
1.内容的表示 • 媒体对象及其代理 • 媒体对象(视频、音频轨道、图片等)可以被表示成为所谓的“代理” • 代理对应于基于特定环境的特定方面的内容的具体视图 • 视音频内容可以用多媒体代理来表示(综合使用不同媒体类型来表示) • 其他代理 • 摘要、编辑决策列表(Edit Decision List, EDL)、数据库记录等 数字媒体资产管理
1.内容的表示 • 代理分为文本代理、数据库代理和多媒体代理 • 纯文本代理是有关内容的文档,包括摘要、产品文档(如产品单)、校本、EDL、日志文件(例如和时码有关的文本转换语句和注解)、合约、法律文档等等 • 数据库代理是存储于数据库管理系统(DBMS)的全部内容的表示。所有相关特征由一个结构化文本表示器来采集,它能够优化和简便查找,并可按照属性重新查找 • 多媒体代理是表示如低码率副本、视听摘要和不同媒体类型的组合内容的表示方法 数字媒体资产管理
2. 内容的描述 • 数字媒体资产管理中的元数据是用来描述数字内容的信息 • 元数据是媒体内容的描述信息,如描述节目标题、作者、栏目标签、版权信息、版本控制、比特率、格式等信息 • 例如对于记者,他所写的稿件如果要配视频的话,就必须知道所需视频的拍摄时间、拍摄地点、被采访者的姓名等信息;而对于编辑来说,他可能需要知道记者的姓名、视频的长度和标题等 数字媒体资产管理
元数据与内容 • 媒体资产管理系统会把元数据存储于某种类型的数据库中,这种数据库将支持对数字资产进行多种有效的检索和查询操作;而数字媒体内容则存储于该数据库之外,并且数字媒体内容的存储位置在其生命周期内可以不断变化,如可存储于磁盘阵列中以支持网络系统的高速实时视频流,也可以迁移到离线存储设备中作长期存档 • 元数据是数字媒体资产再利用的基础,元数据的质量、数量、单一性、描述内容、可检索性和可获得性都是决定一个媒体资产管理系统成功与否的关键 数字媒体资产管理
2. 内容的描述 • 元数据最初在计划阶段产生,在内容对象的整个生命周期内被使用和不断修正 • 元数据要捕捉生产计划(包括原材料、个人计划和相关贡献的参考),以及计划阶段的编辑准备(绘制、调查、收集和情节串联)等信息 • 使用元数据的阶段有:生产、传输、媒体管理和其他开发过程 • 元数据的应用包括:文档撰写、IPR、许可证、分析数据和位置相关数据(存储管理、位置ID等) • 元数据分为关于对象的元数据和关于片段的元数据 数字媒体资产管理
关于对象的元数据 • 关于对象的元数据包括所有以描述媒体对象的特定特征为主题的元数据,它将内容对象作为一个整体描述 • 内容描述(主题、作者、导演等) • 相关组织数据(如项目位置、责任编辑办公室等信息) • 内容标识和参加团体(处理内容的个人或组织,及其关系、角色和权利) • 技术元数据和所有商业过程(包括媒体制作的所有工作流步) • 关于对象的元数据通常存储在数据库中,有时也存储在结构化文件中,以全文检索引擎建立索引,以便于检索 数字媒体资产管理
关于对象的元数据 • 内容生命周期特定点所产生的元数据 • 元数据可能在生成的时候就被处理并联系到一部分素材上。比如位置、日期、时间等信息在产生记录时被自动关联 • 在输入和解析过程中,元数据与内容对象建立关联 • 查找阶段收集的典型元数据 • 视频源格式 • 视频压缩格式 • 音频源格式 • 音频压缩格式 • 记录参数(摄像和话筒设置) • 生产信息 数字媒体资产管理
关于对象的元数据 • 上载过程中加人的典型元数据 • 生产序号 • 标题 • 日期、时间和位置 • 源名(如机构名称、摄像者等) • 剪辑描述(画面内容的文本摘要) • 起始或结束标志(磁带或文件的剪辑) • 拍摄质量 数字媒体资产管理
关于对象的元数据 • 后期制作和非线性编辑中典型的关于对象元数据 • 文献开始或结束 • 时码 • 副标题 • 授权信息 • 电子VTR卡 • 剪辑者、编辑者和制作人的名字等 数字媒体资产管理
关于对象的元数据 • 分发播出相关数据 • 首播日期 • 首播时间 • 播出频道 • 统计信息(观众或听众数量) • 重播信息 数字媒体资产管理
网络首播 PPTV网络电视2010年9月2日当天以网络电视首发该剧的身份亮相 数字媒体资产管理
关于对象的元数据 • 分类和深层编目中添加的典型数据 • 目录表 • 编目时间 • 题目分类 • 节目关系 • 摘要 数字媒体资产管理
关于对象的元数据 • 关于权利的元数据 • 知识产权(Intellectual Property Rights,IPR)是关于对象元数据的一种特殊类型,IPR描述了特定内容对象的所有权和使用限制 • 权限有可能很复杂,包括所有权(作者、作曲者、导演、摄影师等)、演出权(演员、音乐家等)、个人版权和其他很多版权 • 还要考虑以下版权 • 地域限制(通常指地理限制) • 传输和传播方法(通过电视、电影、广播和网络) • 传输和传播时间(先于或后于某一天) • 使用期限 • 用户(传输者)数量 数字媒体资产管理
关于片段的元数据 • 而关于片段的元数据用于描述由于空间或时间界限(如图片边界和时码)所分割的内容对象的一个部分 • 片断描述的优点在于对内容对象进行深度编目的自由度和灵活性高,它可以对重大事件的详细描述进行编目另外,它能够支持对于内容对象具体部分的检索,并且能够定位到具体部分 • 片段能够表示内容对象的不同逻辑部分 • 根据空间的片段是指内容对象的具体区域或者(如MPEG-4中一样)内容对象的某个具体对象 • 根据时间的片段指时间片段由对象ID和开始以及结束时码(或者开始时码和片段时问长度)为标识 数字媒体资产管理
关于片段的元数据 • 媒体对象的时码以时间线为参考;时间线可以是片段相关的逻辑构造 • 以在界定整个媒体对象的各部分分段处添加锚点的方式,来利用媒体对象的时间、空间本质特征,锚点处可以链接到详细的描述 • 如,时间层结构应用时间参数(和各自的时间线有关)来指向音频或者视频对象的某个具体部分 数字媒体资产管理
关于片段的元数据 • 在连续媒体中,片段描述和与时间无关的文本信息以及与时间有关的视听信息相联系。一些多媒体内容管理系统联合应用视听信息和文本信息在情节串联图板中产生基于片段的文档。关键帧、层的描述和时码联合产生图像内容的纵览 • 在检索过程中,联合的层有时要准确地标识出用户感兴趣的片段 • 例如,当要查找在特定地点某人在另外一个人在场时所做的发言,用户则可以查找“在场人”的层中参与者的姓名,查找“相关主题”层中引用的原文,查找“地点”层中具体的位置。联合输出的结果将准确指向需要的片段 数字媒体资产管理
逻辑内容结构和内容层级 • 内容对象层级结构: • 镜头(如传输中的帧序列) • 节目条目(组成大单元的单个实体,如新闻故事、采访、演出等) • 节目(由逻辑相关节目条目组成,构成相同传输或节目时间表实体) • 节目集(相同生产的节目组,如电视剧) • 开发这些层级关系可以定位检索到层级的具体某一级 数字媒体资产管理
对象引用 • 对象引用在内容管理系统中有重要地位,因为它们明确标识了内容对象。它们是元数据的一部分,但是将元数据与素材联系起来 • 除了将内容对象作为一个实体进行标识以外,它们也能够引用到不同的内容组件(如素材对象),将内容对象的不同表示链接起来 • 另外,它们还可以用于链接相关的内容对象 数字媒体资产管理
标识符 • 对象特性标识符,是本地组织内部的特性唯一标识引用 • 唯一资料标识符(Unique Material Identifier,UMID),是为了标识素材条目而提出的。UMID由SMPTE定义标准化,其格式允许纯粹基于本地信息自动生成全局唯一标识符 • 唯一节目标识符(Unique Program Identifier,UPID),是为了传统的节目条目和相关版权的声明而提出的。UPID有法律意义,因此最好选择正式的、注册的标识符。 • 在基于IT的系统中,它们可以根据W3C的定义表示为统一资源定位符(Uniform Resource Locators,URL) 数字媒体资产管理
3.获取和使用元数据 • 元数据的作用是使得内容可访问、易于查找和可以交换。用来支持交互功能和实际媒体或者素材的处理过程的。因此,元数据的综合查找、检索和交换对内容管理系统中的交互作用很重要 数字媒体资产管理
使用程序读取图片的EXIF信息 • 元数据最大的好处是,它使信息的描述和分类可以实现格式化,从而为机器处理创造了可能 • EXIF信息处理的Java包是Drew Noakes写的metadata-extractor,可以直接从http://www.drewnoakes.com/code/exif/releases/ 下载该项目的最新版本包括其源码(最新版本2.4.0) 数字媒体资产管理
使用程序读取图片的EXIF信息 import java.io.File; import java.util.Collection; import java.util.Iterator; import com.drew.imaging.jpeg.JpegMetadataReader; import com.drew.metadata.Directory; import com.drew.metadata.Metadata; import com.drew.metadata.Tag; import com.drew.metadata.exif.ExifIFD0Directory; /** * 测试用于读取图片的EXIF信息 * @author Leyond * @Blog codecho.com */ 数字媒体资产管理
使用程序读取图片的EXIF信息 public class MetaDataReader { public static void main(String[] args) throws Exception { File jpegFile = new File("src/Nikon E990.jpg"); Metadata metadata = JpegMetadataReader.readMetadata(jpegFile); Directory exif = metadata.getDirectory(ExifIFD0Directory.class); Collection<Tag> tags = exif.getTags(); Iterator<Tag> iter = tags.iterator(); //逐个遍历每个Tag while(iter.hasNext()) { Tag tag = (Tag)iter.next(); System.out.println(tag); } 数字媒体资产管理
使用程序读取图片的EXIF信息 //检查是否Tag中包含了图片属性-摘要中的作者 (xp) if(exif.containsTag(ExifIFD0Directory.TAG_WIN_AUTHOR)){ System.out.println("Pic author is "+exif.getDescription(ExifIFD0Directory.TAG_WIN_AUTHOR)); } //检查是否Tag中包含了图片属性-摘要中的标题 (xp) if(exif.containsTag(ExifIFD0Directory.TAG_WIN_TITLE)){ System.out.println("Pic title is "+exif.getDescription(ExifIFD0Directory.TAG_WIN_TITLE)); } //检查是否Tag中包含了图片属性-摘要中的主题 (xp) if(exif.containsTag(ExifIFD0Directory.TAG_WIN_SUBJECT )){ System.out.println("Pic subject is "+exif.getDescription(ExifIFD0Directory.TAG_WIN_SUBJECT )); } } } 数字媒体资产管理
使用程序读取图片的EXIF信息 • 执行结果: • [Exif IFD0] Make – NIKON[Exif IFD0] Model – E990[Exif IFD0] Orientation – Top, left side (Horizontal / normal)[Exif IFD0] X Resolution – 300 dots per inch[Exif IFD0] Y Resolution – 300 dots per inch[Exif IFD0] Resolution Unit – Inch[Exif IFD0] Software – E990v1.1[Exif IFD0] Date/Time – 2000:12:30 10:18:16[Exif IFD0] YCbCr Positioning – Datum point[Exif IFD0] Windows XP Title – Codecho.com[Exif IFD0] Windows XP Author – Leyond[Exif IFD0] Windows XP Subject – TestPic author is LeyondPic title is Codecho.comPic subject is Test 数字媒体资产管理
实验3: • 使用程序读取图片的EXIF信息 • 实现功能 • 基本的读取和导出 • 导出图片的EXIF信息到图形界面,列表显示 • 导出图片的EXIF信息到数据库 数字媒体资产管理
元数据的检索和查询 • 内容管理系统要提供特别的查找功能,以便能够获取与内容管理系统不同数据库和信息系统之间进行互操作的信息。几种查询方式: • 全文检索,支持以自然语言检索系统。查找通常经过索引后的文件(有时候是结构化文件)或者使用DBMS的全文检索功能进行 • 检索标签,构成了根据内容进行检索的结构,如根据名称、地点、日期等 • 检索片段,只在片段描述中进行查找。如果使用了分层的文档模型,也可以限制在表示具体层的概念中查找(如出现的人物和地点) • 本地检索,是直接应用于本地数据库的查找,考虑了数据模型、检索语言、数据库的具体限制和功能 数字媒体资产管理
元数据的交换 • 元数据可以在组织内部或者组织之间进行交换,以支持媒体制作和其他商业过程的工作 • B2B的元数据交换出现于相互合作的组织间和媒体的销售中。此时元数据以商家间的传递、接收和交互操作来实现交换 • 元数据交换的实现需要使用标准数据模型、元数据字典、交换协议等 • 为了传输,元数据需要进行序列化并使用标准传输协议和封装格式进编码 数字媒体资产管理
4.元数据描述方案 • 媒资管理系统的设计须遵循统一的元数据标准, 以保证各系统间的互连互通, 实现数字资产的共享和交换 • 国际上提出了一些相关标准 • 由英国广播公司(BBC)媒体数据组开发的标准媒体交换框架SMEF(Standard Media Exchange Framework) • 由电影电视工程师学会(SMPTE)开发的SMPTE元数据字典 • 由多个组织参加制定的都柏林核心元数据(Dublm Core Metadata Initiative, DCMI) • 以及由国际标准化组织ISO/IEC下的MPEG委员会提出的MPEG-7、 MPEG-21标准等 • MPEG-7 for content description • MPEG-21 for packaging, rights mgmt, transactions 数字媒体资产管理
Multimedia Metadata Standards • MPEG-7: • Moving Picture Experts Group–Infrastructure standard for Multimedia Metadata–Supports interpretation of the information’s meaning–Supports broad range of applications • SMEF –Standard Media Exchange Framework • BBC developed data models for information involved in the • Production, Development, Use, and Management of media assets • P/Meta –EBU P/Meta Project • Exchange of program content between high-level business functions of EBU members: Production, Delivery/Broadcast, & Archive • SMPTE –Metadata dictionary & MXF • Addresses Program Interchange independent of format • Dublin Core Metadata Initiative • Interoperable online metadata standards supporting broad range of purposes and business models. • TV-Anytime –TV-Anytime Metadata • Attractors/descriptors used e.g. in Electronic Program Guides (EPG), or in Web pages to describe content. • Indecs • Indecs Metadata Framework–An international initiative of rights owners creating metadata standards for e-commerce. 数字媒体资产管理
SMEF • SMEF覆盖了整个内容生命周期,包括媒体制作和所有处理广播媒体的过程 • 计划、蓝图和委托 • 内容创作 • 宣传和节目日程列表 • 播出和传送 • 媒体管理和存储 • 目前广播电台中最广泛地系统化考虑所有内容生成和管理方面的数据模型 数字媒体资产管理
SMPTE元数据字典 • SMPTE元数据字典定义了特殊的类,这些类由元数据元素组成,它们有共同的特征和属性 • 类的组织和类中的结构是层级式的。字典中使用了通用标签概念来标元数据元素 • 元数据字典是个动态实时的文档,支持定义新的输入 数字媒体资产管理
SMPTE元数据字典元素结构 • SMPTE元数据字典定义了属性、集和数据类型的集合体,被称为SMPTE通用标签,以特别标识一个元数据实体 • 例:SMPTE对于一个关键帧集合 • (06 – 0E- 2B – 34 – 01 – 0I – 01-01- 03 – 02 – 01- 02–06–00–00 –00)的通用标签 数字媒体资产管理
SMPTE唯一资料标识符 • 唯一资料标识符(Unique Material Identifier,UMID)在SMPTE元数据字典类1中有重要的地位 • UMID支持SQL技术用于素材和元数据的检索。UMID数据的表示可以分为两部分: • 1. 32 –字节(强制)基本UMID,它包含的信息包括: • SMPTE-UMID的通用标签标识符 • UMID长度的长度描述 • 剪辑的副本(版本)实例数字标识 • 剪辑的材料数字标识,特殊号码 • 2. 32 –字节(可选)签名的UMID,包含以下信息: • 时间或日期,例如制作剪辑的时间(具体到单个帧的时间) • 镜头位置和原始剪辑的空间配合 • 制作国家的国家码 • 制作组织的组织码 数字媒体资产管理
都柏林核心元数据 • 都柏林核心元数据向导计划组织(Dublin Core Metadata Initiative, DCMI)创立于1995年,是一个推动广泛传播的交互元数据使用标准的机构 • 在都柏林核心(Dublin Core,DC)中的资源是有地址的实体、网络站点、文档集合以及非电子形式的媒体(如物理存储) • 都柏林核心在所谓的都柏林核心元数据元素集(Dublin Core Metadata Element Set,DCMES)中指定了15种元数据元素的集合 • 标题、作者、主题、描述、发表者、贡献者、数据、样式、版式、识别、来源、语言、关系、范围、权利 数字媒体资产管理
MPEG-7 • MPEG-7标准被称为“多媒体内容描述接口”,为各类多媒体信息提供一种标准化的描述,这种描述将与内容本身有关,允许快速和有效的查询用户感兴趣的资料。它将扩展现有内容识别专用解决方案的有限的能力,特别是它还包括了更多的数据类型 • 换而言之,MPEG-7规定一个用于描述各种不同类型多媒体信息的描述符的标准集合 • 该标准于1998年10月提出 数字媒体资产管理
MPEG-7 Overview 数字媒体资产管理
MPEG-7 • MPEG -7标准由八个部分组成 • MPEG -7系统 • MPEG -7数据描述语言 • XML方案结构化语言组件 • XML方案数据类型语言组件 • MPEG – 7的特殊扩展 • MPEG -7视频和音频部分 • 色彩描述符:描述颜色分布、空间输出和色彩结构 • 文本描述符:描述可视化模式,如均匀性、混色和饱和度 • 图形描述符:描述可视化对象的形状(基于区域和轮廓描述符) • 运动描述符:描绘视频对象中的运动,如镜头移动和对象移动 • 表面描述符:描述应用的具体表面特征,如人脸识别 • MPEG -7多媒体描述方案工具 • MPEG -7参考工具和关系 数字媒体资产管理
MPEG-7的目标 • 支持多种音频和视觉的描述,包括自由文本、N维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述将包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。 • 根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的需求 • 以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述 • 对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置 • MPEG-7还允许依据视觉描述的查询去检索声音数据,反之也一样 • 支持数据管理的灵活性、数据资源的全球化和互操作性 数字媒体资产管理