中国·金沙棋牌js6666(官方)app手机版下载


数字内容建设需要什么样的标签集

2013年02月01日

【百道网薛学彦专栏】最大可能地使用 HTML 兼容标签集,可能是数字加工工作的首选方法。这使得内容的编辑永远是具有良好标记语言知识的数字编辑。也只有这样的工作模式,方可生产出高质量的数字产品。任何把内容交给程序员去做的模式终究是不可取的。

标记内容是数字化过程一个非常重要的步骤,而这就需要考虑使用什么样的标签集(tagset)。

众所周知,标记语言在国内外的发展源于计算机的应用,无论是国外 SGML、HTML ,还是国内的科印排版系统、北大方正排版系统等都有自己特定的标签集,一些文字处理器如 MS Word、WordPerfect 等也有自己特定的标签集。

当标记语言走过了具有特定标签的标签集历史之后,人们开发了没有特定标签的标记语言 XML。目前,不少出版人也都在使用 XML 技术进行数字内容建设。当然,XML 的一个特征就是用户可以定义自己的标签,另一个特征是它可以方便地用于数据交换。这些特征为数字内容加工留有足够的余地。

那么,数字出版究竟使用什么样的标签呢?其标签集应该都是哪些标签?如何命名?

数字内容建设大致可以分为原始数据加工及保存和数据应用。前者是数字化基础,是出版人内容建设的底层工作,而数据应用就涉及各类数字图书产品。数字图书产品又大致分为三种,即固定版式电子图书、非固定版式电子图书和基于网络的数字产品。

第一种几乎完全等同于桌面印刷,标记语言的作用显得苍白无力。iBooks Author 文档虽然可以被视为 XML 文档,但其完全失去数据交互的意义,也和前期的数字内容建设关系不大。这类程序的封闭性通常不允许也不可能导入用户自己的 XML 文件,换言之,出版人完全可以按照传统的出版流程工作。

第二种图书产品目前多限于不具有交互功能的阅读类电子图书,如开放式 epub 格式图书或者受数字版权保护的 mobi 格式图书。而这类图书的表现方法完全继承于超文本标记语言,即 HTML。就这一点来讲,数字内容建设完全可以使用现有的 HTML 标签集,其内容也完全可以根据某种技术标准批量进行数字产品生产。前期的数字内容建设显得有意义。

基于网络的数字产品显然最终要使用 HTML 标签集。前期数字内容建设对这类数字产品意义更大。

就这三类数字产品形式来讲,后两种内容描述最终不能摆脱现行的 HTML,即使前期的内容建设不使用 HTML 标签集,最终也要由程序进行转换,将内容推送给用户。

经过大致的分析,数字内容加工过程使用什么样的标签集也不难理解了。

观察下面两组标签:

这两组标签的区别仅仅是标签名(tagname)不同吗?

前者是 HTML 标签集的一部分,有其固定的表现方法,解析这类标签及标签属性不需要特殊的程序,把它纳入 HTML 即可。而后者至少需要程序解析、需要转换,在使用某些样式时需要编加代码来完成,给程序员带来负担。

很明显,最大可能地兼容 HTML 不仅减轻程序员压力,而最大的意义还在于这类数据可以最大可能地与程序分离,使得内容的编辑永远是具有良好标记语言知识的数字编辑。也只有这样的工作模式,方可生产出高质量的数字产品。任何把内容交给程序员去做的模式终究是不可取的。

最大可能地使用 HTML 兼容标签集,可能是数字加工工作的首选方法。

(来源:百道网)