网站导航:首页 -> 软件水平考试 -> 系统工程师考试认证 -> 跨数据库文献检索统一平台的实现

跨数据库文献检索统一平台的实现

    1.引言

  本世纪以来,人类创生的信息量高速增长,据估计,70年代以来全世界每年出版图书50万种以上、期刊10万种以上、专利约50万件、科技报告约90万件、会议文献10多万篇、产品样本50多万种,每年发表的科技论文总数近500万篇,并呈指数式增长,真可谓信息浩如烟海。随着互联网的快速发展,通过网络提供服务的以缩微品、声像带、磁盘、光盘等形式记录的非纸信息急剧上升,电子资源日益增多,数据库种类越来越丰富。

  如何从这浩如烟海的信息中找出所需信息,就成为信息检索的重任。信息化的多样性、数据库种类的形式不一、平台的差异性这些都对文献检索带来了许多困难。随着国家教育部要求在部分高校开设“文献检索与利用”课程,各高校图书馆数字化建设的大力投入、情报单位信息化建设的研究深入,这方面的工作也取得了一定的成绩。但存在的问题也不少,几乎所有的数据库都有自己独特的检索系统,用户每使用一种数据库,都必须重新进入和使用一种不同的检索系统,使人感到不胜其烦。往往又找不到所要的信息。这样用户的使用成本大大增加,降低了用户的积极性。因此,不少用户提出能不能开发一个兼容各种数据库的无所不包的检索和阅读的统一平台。

  本文就从文献检索系统的现状进行分析,通过文献检索数据库的种类、数据库类型、用户使用方式等分析,提出系统开发的解决方案及平台实现技术,提出跨数据库文档检索统一平台的实现构思。

2.跨数据库文献检索现状分析

2.1文献检索的数据库种类分析

  文献检索按数据实体区分有全文,文摘,索引,主题等;存储方式有数据库,文件系统等;数据分布上有本地和网上;文件格式有文本,多媒体,超媒体;数据归属上有自建,购买和免费等;数据的内容形式上又有图书、期刊、事实数据等。对用户而言,要查到所需学科的各种资料,在分散的资源中,他就必须知道哪些资源涵盖了自己的学科,熟悉使用各种客户端软件、查询界面和检索策略。即使这样,他也很可能遗漏了某些数据库。费时费力但是查全率较低。

  按数据发布形式区分有主要有专用服务器/客户端和web发布两种方式。专用服务器/客户端模式主要应用在目前的opac,z39.50,某些光盘数据库系统等方面。互联网的发展使web发布方式成为信息发布的主流方式,也成为跨平台文献检索系统主要面对的处理对象。但是每种产品在用户界面,检索点,检索策略和显示方式上千差万别。同是电子图书,“超星”、“书生”和“apabi”都有各自的检索特点:“超星”的检索点是书名、作者、出版社和出版日期;“书生”多了isbn、丛书名和摘要;“apabi”又多了关键词、全面检索和全文检索等检索点。电子图书如此,那么电子期刊之间、期刊与图书及其它资源间的差异就更显而易见了。这固然给用户带来了不适应感,也缺少标准、统一的功能平台。
 
2.2数据库类型分析

  数据库类型涵盖文献型、事实型和数值型以及全文数据库,数据记录包括论文、期刊、报告、标准、专利、商情等多种类型。按学科资源分类有综合、生物学、电子技术与信息科学、工业技术、农业科学、医药卫生、文史哲、经济、政治与法律、教育与社会科学、生活服务等数据库。例如数据库中国期刊全文数据库、中国重要会议论文全文数据库、中国图书全文数据库。按语种分中文数据库、外文数据库。国内主要综合类标准数据库的有nstl、万方数据。而国外主要综合类标准数据库有perinorm、世界标准服务网。