行业知识库

从机读目录格式到通用记录格式:面向未来的信息服务

21 june
摘要 潘岩铭(中国国家图书馆)   金培华(北京丹诚软件有限责任公司) 本文回顾了图书情报界机读目录数据格式及其应用的发展过程,根据未来非文献领域信息检索需求,提出了一种借鉴机读目录格式的框架结构,定义通用信息检索格式的设想和初步方案。这一设想的基本目标是利用一种抽象的、面向对象的数据结构定义描述各种事物,使描述不同事物 的数据信息以类似MARC的方式混合存储在一个数据库中,提供综合性信息检索服务。 Abstract This paper reviewed the development of MARC format and its application in the librarianship and information service community. The frame structure of MARC is considered valuable to design a generic information data format other than document description. The goal of the attempt is construct an abstractive and object oriented data format to describe various subjects and make these information possible to be stored in one database, and provide integrated information search service. 1. MARC格式简介 1.1. USMARC 美国国会图书馆自1963年起,研究应用计算机为图书馆业务服务的方法。1966年2月开始进行“机读目录试验计划”,当年11月已输入5万条书目记录,并能向16个参加馆每周发送1200个记录的磁带。它的格式就是MARC I。 1968年6月,又研制成了MARC II格式。它是目前使用的各种机读目录格式的母本。1971年,美国国家标准局将LCMARC确定为美国国家标准,LCMARC从此被称为USMARC格式。 作为一种计算机技术发展早期形成的数据格式,这一格式在定义时比较充分地照顾到图书馆书目数据在文献形式描述、内容描述、检索等方面的需要,表现为: ·         字段数量多; 著录详尽; 可检索字段多; 定长与不定长字段结合,灵活实用; 保留主要款目及传统编目的特点。 扩充修改功能强;并在实践中不断发展完善。 下面是USMARC主要字段: 001- 008字段,控制字段,标识出版物的一般性信息: 001字段 控制号 005字段 006附件特征(定长数据元素) 007载体形态(定长字段) 008 一般信息(定长数据元素) 01X-09X 字段,号码或编码: 020字段 国际标准书号 (ISBN) 022字段国际标准连续出版物号(ISSN) 指示符1标识连续出版物的影响级别。 035字段提供成员馆控制号。 042字段提供鉴定机构代码。 051字段说明美国国会图书馆的复本、期刊、抽印本。 052字段标识文献涉及的地理范围。 080字段国际十进分类法分类号 082字段杜威十进分类法分类号 086字段政府文献分类号 088字段报告号 09X 字段地方馆索书号 标目字段中通用信息部分: X00 字段 个人名称 X10 字段 团体名称 X11 字段 会议名称 X30 字段 统一题名 1xx字段提供主款目标目。 20X-24X字段题名和题名的各种变异形式。 245字段题名项 250-28X 字段 版本、印刷等 3XX字段载体形态: 310 字段为当前出版频率。 321字段为先前出版频率(在记录有310字段时使用)。 362字段标识出版日期和(或)卷期标识。 4XX字段为丛刊说明。 5XX字段为附注项。 6XX字段为主题检索字段。 700-75x 字段为附加款目。 76X-78X 字段为连接款目 800-840字段为丛刊附加款目。 841-88X字段为馆藏、图形替换等项: 856字段为电子资源地址及检索途径。 -------------------------------------------------------------------------------- 1.2. UNIMARC格式的诞生 1971年8月,国际图联(IFLA)开始设计一种通用格式。以实现各国机读目录数据的共享。1977年发布UNIMARC的第1版,1980年公布了它的第2版。UNIMARC 可以容纳各种类型的文献,表现了更大的灵活性。对数据的组织更为科学与合理。 我国的中国机读目录格式(CNMARC)是在 UNIMARC 的基础上,结合我国编目工作经验制定出来的。经过近10年的应用,已经得到了进一步的完善。在我国机读目录工作中,发挥着越来越大的作用,成为我国图书馆界普遍采用的数据格式。国内研制的商品化图书馆系统对这一标准普遍提供良好的支持。 1.3. 通用通讯格式CCF(The Common Communication Format UNISIST, UNESCO, 1984.) CCF是在1979年世界科学情报系统和国际科学情报理事会文摘委员会共同制定的UNISIST 的基础上发展起来的。它把文献分为目标文献和相关文献,把文献的相关关系分成纵向关系和横向关系两种。被描述的主要文献称为目标文献,而与目标文献具有各种关系的所有其他文献称为相关文献。同时,它引入了区段的概念,用来在描述主要文献的同时描述多个相关文献,每个区段中存放一个文献。同一区段中有关系的字段也可以连接起来。这时的CCF主要是对图书、期刊、报告、学位论文、地图、专利、标准等进行描述。 我国情报界曾经在处理期刊篇名或文摘数据库时部分借鉴了这种格式,但严格按照这种格式建立的数据库信息资源仍相当稀少。 在联合国教科文组织1992年发布的通用信息交换格式(Common Communication Format)中,在文献书目信息交换格式(Common Communication Format for Bibliographic Information, 简称CCF/B)的基础上派生出了一个事实信息交换格式(Common Communication Format for Factual Information, 简称CCF/F)。这个事实信息交换格式中,兼容了以下非书目信息: 项目管理信息、机构信息和个人信息。 这是目前已知的基于文献信息数据处理的机读目录格式标准中,唯一将非书目信息资源与书目文献信息资源溶为一体的实例。 CCF格式的字段包括: 088字段,控制字段,标识出版物的一般性信息: 001字段 记录标识 010字段 记录区段标识 011字段 交替记录标识 015字段 区段的书目级别 020字段 记录来源 021字段 记录完整性 022字段 记录最后处理时间 023字段 记录版本的日期和号码 030字段 记录使用的字符集 031字段 记录的语言和字体 040字段 项目或实体的语言 041字段 文摘的语言和字体 050字段 载体形态 060字段 资料类型 061字段 专利文献类型 062字段 真实信息的类型 063字段 标准类型 080字段 区段的字段连接:垂直关系 085字段 区段的字段连接:水平关系 086字段 字段与字段连接 088字段 记录与记录连接 1xx字段 提供号码或编码 100国际标准书号 (ISBN) 101国际标准连续出版物号(ISSN) 102字段 CODEN 110字段 国家书目号 111字段 法定呈缴本号 120字段 文献号 125字段 项目号 130字段 合同号 200 字段 题名 201 字段 识别题名项 210字段 并列题名 230字段 其他题名 240字段 统一题名 260字段 版本说明 300 字段 个人名称 310 字段 团体名称 320 字段 会议名称 330 字段 个人主要责任者任职单位及单位或私人地址 340字段 与专利有关的国家 400字段 出版地和出版者 410字段 印刷地和印刷者 420字段 发行地和发行者 430字段 出版发行地址 440字段 出版日期 441字段 法定呈缴日期 442字段 与专利有关的日期 444字段 与标准有关的日期 446字段 与学位论文有关的日期 448字段 起讫日期 450字段 连续出版物卷期标识和出版日期 460字段 载体形态 465字段 价格与装订 470字段 地图资料的数学数据 480字段 丛书说明 490字段 分册说明 500字段 附注 510字段 项目或实体关系附注 520字段 连续出版物出版频率附注 530字段 内容附注 600字段 文摘或说明 610字段 分类法分类号 620字段 主题词 650字段 提供服务 700字段 人力资源 705字段 设备与其他资源 710字段 经费 715字段 收入单元 716字段 支出单元 800字段 国别 810字段 教学职称 820字段 个人经验 860字段 项目状态 -------------------------------------------------------------------------------- 1.4. ISDS格式 1966年和1968年的第14届、15届联合国教科文组织(Unesco)大会后,制定了了世界科技信息系统(UNISIST)计划,建立了国际连续出版物系统, 英文全称为International Serials Data System (ISDS)。建立这个系统的目的是通过一种标准的机读目录格式建立全世界的期刊题名目录、登录刊名的标准缩写形式、不断增补全世界期刊目录并出版累计的修订版目录。 ISDS的数据格式如下所示: 008字段 录入日期 $b 出版状态 $c 起始日期 $d 终止日期 $e 出版国家 $f 出版频率 $g ISDS 中心代码 $h 出版物类型 $i 原题名字母 $j 出版物语言 022 字段 国际标准连续出版物号(ISSN) 030 字段 CODEN和其他代码 080 字段 国际十进位分类法号 082 字段 杜威十进位分类法号 210 字段 缩略识别题名 222 字段 识别题名 245 字段 正题名 246 字段 不同题名 260 字段 出版 510 字段 被做文摘或索引 550 字段 编辑机构名称 710 字段 编辑机构或会议名称 759 字段 其他语种版本 760 字段 分丛刊 762 字段 有分丛刊 769 字段 有其他语种版本 779 字段 附件或补编 780 字段 前题名 785 字段 后题名 787 字段 相关题名 789 字段 有附件或补编 -------------------------------------------------------------------------------- 1.5. ISO 2709:文献信息交换用磁带格式 文献信息交换用磁带格式(Documantation - Format for bibliographic information interchange on magnetic tape)是上述几种机读目录数据格式标准所依据的共同交换格式标准。虽然这个标准是为计算机系统交换书目数据设计的,但其基本设计框架和设计思想有许多值得借鉴的因素。 首先,多种机读目录数据对这一格式的支持,说明这个标准所提出的数据结构框架有良好的扩充性,能够适应多种不同信息描述的需要。USMARC和UNIMARC所提供的规范数据格式,在支持ISO 2709标准的基础上,实现了用同一格式描述个人信息、团体信息和知识范畴信息(主题)。 就这一标准的框架结构而言,可以概括为以下几点: o        由一个24位固定长头标区存放关于一个记录的基本信息,如:记录的长度、指示符位长度、子字段标识长度等。 由若干个12位固定长字符存放关于一个字段的基本信息,包括字段标识、字段长度和字段在记录中的起始位置。 记录内容为不定数量、不定长度的数据元素。 用字段指示符位存放字段的控制信息,如:是否生成检索点等。 字段可重复。 子字段可重复。 这些特点,为在一个记录体中描述复杂对象提供了较大的空间,这种风格,也是本文所探讨的《通用记录格式》所依据的框架结构。 机读目录数据的生产与利用 高质量的信息服务,需要高质量的数据 采用机读目录格式制作数据,被普遍认为是一种技术性要求高,难度较大的工作。提供这种数据加工的软件环境,也被认为是文献信息管理系统软件开发的技术的难点。即便如此,机读目录格式仍然在没有强制的前提下得到广泛推广,说明以这种方式产生的数据资源建设减少了图书馆的重复劳动,保证了数据资源的延续性,有助于提高信息检索的服务质量。 伴随着机读目录数据标准的推广过程,我国图书馆界内一直存在各种偏离这一标准的动议,包括用全文数据库检索替代机读目录格式、对现有格式进行简化、采用机读格式标准的子集生产数据等。这些看法,并没有产生切实可行的"简化"解决方案,而严格执行有关标准的重要性却逐渐成为更多人的观点。 在图书馆,机读目录数据的生产过程的主要目的是建立馆藏目录,为各项业务环节提供目录服务。图书馆业务管理使用计算机后,每一种出版物在采购环节就开始建立了机读目录,但直到编目环节才精细地针对其性质和特点进行著录和分类主题标引,确定哪些出版物需要聚集在一起成为一“类”,这个“类”一旦确定,就被后来的典藏和流通环节沿用下去。可以说编目环节是承前启后的一个关键环节,编目工作的质量直接影响图书馆书目服务的整体水平。 编目工作具有一定的学术性,要求编目人员对与出版物相关学科知识有基本的了解,能够从出版物的内容、形态等特征中把握主要因素,准确地进行描述和分类。应用计算机编目的直接产品是MARC格式的书目数据。编制良好的MARC数据,清晰地描述出版物的状况,具备足够的检索点,能够帮助使用者从多种角度检索利用它。编目工作的最终目的是方便读者查找使用馆藏和有利于图书馆工作各个环节的开展。因此,编目也是一种实用性的工作。 图书馆界通过这种严格的方法生产的书目信息数据,成为国家和各行业书目数据资源最为权威的依据,成为一种稳定的基础信息资源。 高质量的信息服务,不能仅留在书目信息或文献信息本身 随着图书馆业务发展和网络信息服务的发展,未来图书馆需要为社会提供多样化的信息服务,一些图书馆已经意识到一个问题:为一类专题信息定义一个专用数据库,会造成数据库名目繁多、每一数据库内容数量有限、检索不方便、软件开发成本高、系统维护不方便等问题。 当人们面对这个问题时,首先想到的是用全文数据库解决问题。但信息业界多年研究所得出的一些客观规律不可能超越。当人们刚刚为全文数据库在网络上提供服务的高效率、低成本而弹冠相庆时,随着数据量的急速膨胀,访问者的数量却直线下降。 出现这种情况的原因很简单,这就是信息业界多年一直谈论的信息质量问题所致。 图书馆和文献信息业界制定的几种机读目录格式为机读目录的建立奠定了坚实的基础,但也存在一些不尽如人意的地方。尤其是在内容细节上相互之间存在着很大差别,又都坚持各自的书目著录规则或者对同一著录规则的不同解释,出现了多种格式并存的局面。给文献共享带来了困难。这就要求我们不单单停留在把卡片目录和书本式目录向机读目录的转化上,而要站在建设综合信息管理系统,更好地为社会服务的高度,寻找一种无须转换的通用格式,使之成为适应图书馆未来信息服务工作需要。 根据对北京市民获取图书信息渠道的调查(附表1),自己逛书店得到信息的占28.59%.如果我们在计算机网络上及时发布书目信息,将会给广大读者带来多大的方便。读者也可以自己利用MARC格式编辑个人藏书,学习书目和参考书目等。只有把机读目录格式扩展成通用记录格式,才能用一个数据库完成各项不同的工作。随着计算机网络的发展,尤其是因特网的普及,人们能够从网上获取大量的信息,但如何让这些信息有序化,最终会成为人们普遍关心的问题。 本文提出的定义一种通用记录格式,是在吸取图书馆和文献信息业界几十年经验积累中的一些精华思想,偿试用一些被计算机业界认为很"特殊"的数据结构描述各种事物,形成一种通用信息检索系统的数据要素。 由于这一标准中所描述的数据结构是一种不定长度,可重复出现同一字段的形式,使信息内容作为数据元素形式存放非常灵活。一个能够支持这种数据表达方式的数据库管理系统可以在不修改任何程序和系统参数就可以扩充数据的字段,增加新的数据元素。 这在习惯于用二维表来描述信息的人来说,会感到十分困惑,而对于其它人而言,则会感到一种不需要事事有求于软件开发人员的宽松。 这种感觉的背后,隐藏着降低软件开发成本、缩短软件开发周期、有效控制数据质量、节约各环节工作协调时间、降低系统维护成本的极大潜能。 客观地说,这种格式并不能适应所有类型信息的管理。我们可以把数据信息分为三大类型:数值信息、文字信息和多媒体信息(实际上多媒体信息是一种很不确定的概念),将信息管理数据库系统分为三大类型:商用数据库、文献数据库和全文数据库;信息内容与数据库管理系统的最合理组合可以由下面的对照表表示(略)  

我们的典型案例

携手走向共赢