99网
您的当前位置:首页机构知识库内容快速建设方法

机构知识库内容快速建设方法

来源:99网
2011年4月 现代情报 Journal ofModemInformation Apr.,2011 Vo1.3l No.4 第31卷第4期 ・业务研究・ 机构知识库内容快速建设方法 徐以鸿 朱涛 (中国科学院力学研究所图书信息中心,北京l00l90) [摘要]本文指出目前国内机构知识库内容建设遇到的问题,探讨了一种可以加快机构知识库内容建设的方法。并以 WoS和CNKI两大国内络著名数据库为例,对该方法进行了详细说明。 [关键词]机构知识库;内容建设;批量导出;批量导入 DOl:10.3969/j.issn.1008—0821.2011.04.04O [中图分类号]G250.74 (文献标识码]B [文章编号]1008—0821(2011)04—0148—04 Establishment of Institutional Repository’S Content Development Xu Yihong Zhu Tao (Library of Institute of Mechanics,Chinese Academy of Sciences,Beijing 1o019o,China) [Abstract]This枷cle pointed out the exisitng problems ofinstitutional repository’s content development,and put forward a kind of method of accelerating institutional repository’s content conslructation.Finally,the paper gave two examples especially il— lustrating the method. [Key words]insittutional repository;content development;batching export;batehing import 机构知识库(Instituitonal Repositoy,简称m)是科研 r教育机构对本单位员工所创造的各类有价值的知识产出进 行统一收集、集中管理、长期保存并提供检索利用等增值 服务的知识资产管理系统。建设机构知识库可以实现科研 教育机构知识产出的系统积累、长期保存和统一管理,集 如Dspace,DSpace是美国麻省理工大学(MIT)和惠普 (}玎P)公司共同开发的开放获取软件,是最早应用的机构 知识库的软件系统,也是发展最快的机构知识库系统; Eprints是最早的m构建工具,也是第一个遵循OM协议的 IR软件,由英国南安普顿大学开发。建设主要是制定 一中展现和反映机构的整体研究实力和水平,利于知识共享, 促进知识更新,提高学术成果被发现和引用的几率,扩大 科研人员及机构的学术影响和声望。目前,国内外许多高 校和研究机构在着手建设或正在建设本单位的机构知识库。 国外已建成的Ⅲ就有1 800多家_l J,国内已建成的有科 技大学、大学、中文大学、城市大学、 些法规以及机构知识库运行管理办法,以确保机构 知识库建设的顺利开展和长期稳定运行。机构知识库的内 容建设大多是通过机构的科研人员自行提交。由于各种原 因,机构人员并没有把数据提交到本机构库中。目前有不 少作者撰文,提出了许多很好的观点和应对措施。如郎庆 华提出了应积极开展机构知识库自存储的宣传和推广工作, 建立有效评价机制、加强版权保护以及提供自存储资源的 提交服务【 ;赖辉荣就目前机构知识库“有站无车、有车 教育学院、澳门大学、清华大学、厦门大学、浙江大学、 北京理工大学、福建师范大学、中国农业科学院、中国国 家科学图书馆及中国科学院下属的印多家研究所,还有台 湾机构典藏等机构知识库。 无人”的局面提出了一些策略:如加强宣传、提供利用率 推送服务、简化提交步骤、制定激励和强制性自存储、 提供知识产权保护以及建立质量控制机制 J。 这些文章是从机构知识库平台搭建后出发,阐述了保 机构知识库的建设主要有三部分:平台建设、内容建 设和机制建设。平台建设大多是利用现有的开源软件 收稿日期:2011—03—03 基金项目:本文受力学所机构综合数字知识管理特色分馆项目支持。 作者简介:徐以鸿(1969一),男,副研究馆员,研究方向:机构知识库建设和文献传递,发表论文10篇。 一148— 2011年4月 第3l卷第4期 机构知识库内容快速建设方法 Apr.,201I V0I.31 No.4 障科研机构正在产生或将来的产出物的自行提交论点,而 鲜有文献就Ⅲ如何收集机构已有的知识产出物进行论述。 由于m在国内起步较晚,科研人员对其还很不了解,用户 自行提交内容基本都是当年公开发表的期刊论文、会议论 文,报告以及学位论文等,很少会提交历史数据。要用户 馆公共检索系统中导出,有些从中国知网和Web of ciSene c导出的。2009年按研究部门建立的研究社群下的数据多数 是注册用户自行提交的。 鉴于国内多数高校和科研院所都购买了Web of Science 和中国知网CNKI两大数据库。本文就以这两个具有代表 提交以前的知识内容一来不现实,因为科研人员都很忙, 没时间、没精力把历史数据提交到IR库;二来科研人员很 性的数据库为例说明m数据的批量导入建库。 难收集全自己公开发表的论文、报告等知识内容,所以机 2 IR数据批量建库前的数据准备 构以往的知识产出提交成了m内容建设的一大难题。而研 究机构或大学的图书馆作为机构的知识产出物收集、管理 部门,应该当仁不让的IR库的主要内容提供者。但如果让 图书馆部门的工作人员也按自行提交模式一条一条提交数 据既费时也费力。同理,图书馆的人员很多都是一人干着 几项工作,要想短时间把机构以前的知识产出物逐条提交 到 库,几乎是不可能完成的工作。另外,很多机构都已 经建有较为全面的产出物保存系统,如:期刊论文数据库、 研究生学位论文数据库、成果奖励专利、国际会议论文统 计系统等数据库,以及中国科学院AILP系统中的论文产出 库,许多科研院所和大学购买的各种数据库。这些数据库 大多都提供批量输出检索到的文本格式数据或EXCEL电子 表格数据。如何利用从这些现有数据库抽取本机构的论文 数据,再批量提交到m库?马建霞撰文利用自行开发程序 嵌入到IR系统,实现了批量提交数据到m库【 。 下面以力学所机构知识库的内容建设为例,提出一种 IR内容建设关于历史知识产物的收集方法:IR数据批量导 入建库过程。 1力学所机构知识库的简要介绍 力学所机构知识库(简称IMECH—IR)作为“支持综 合知识内容管理”特色分馆建设项目于2008年正式启动, 于2009年6月中旬开通。IMECH—IR按力学所现有的研究 部门和2008年前的知识产出建立了9个社群,分别是力学 所知识产出(1956—2008)、非线性力学重点实验室、高温 气体动力学重点实验室、国家微重力实验室、水动力与海 洋工程重点实验室、环境力学重点实验室、先进制造工艺 力学重点实验室、等离子体与燃烧中心以及职能与支撑部 门,每个社群下按内容类型分若干个研究专题。内容类型 主要分:期刊论文、会议论文、学位论文、专著和会议文 集、专利、研究报告、演示报告、成果以及其他。力学所 知识产出(1996—2008)社群下有数据8 700多条,这些数 据都是从其它数据库或网站导出再导入到m库的。其中期 刊论文、会议论文专利、成果等数据大多是从ARP系统导 出成EXCEL表格格式数据,学位论文数据是从力学所图书 对于SCI收录的论文全部可以从Web ofScience收集到, 而发表在中文期刊上的论文大多可以从中国知网CNKI上 下载题录数据。 2.1从web of Science(WoS)数据库批量采集数据 ISI Web of Science[ 】是Thomson cSientiifc建设的三大引文 数据库的Web版,由3个的数据库组成(既可以分库 检索、也可以多库联合检索)分别是Science Citation Index Expanded(简称SCI Expanded)、Social Sciences Citation Index (简称SSCI)和Arts&Humaniites Citation Index(简称 A&HCD。内容涵盖自然科学、工程技术、社会科学、艺术 与人文等诸多领域内的8 500多种学术期刊。其中的ScIE数 据库——《科学引文索引》网络版收录5 9oo余种期刊文摘 和引文,内容涉及自然科学、工程技术的各个领域。 从WoS采集数据过程如下:先登录ISI Web ofKnowl— dege网站,选取数据库Web ofScience,在作者地址栏输入 机构名称的各种英文拼法,用or连接,设定检索年限;检 索出结果,标记结果,按Ⅲ库元数据字段要求设定字段输 出纯文本格式数据文件,见图1。Web of cSience一次输出 结果不超过500条,如检索结果超过500条,多次输出即 可。 …L…….dl_tt Web ofScienceMarked Reeords n 耐 1w曲0f¥ ̄ ̄nee J-I曼 Wob ScI.咐№^州RH_由・3^咄 ● Scto/do ̄ _ c :D. D “sllttt fieldsktneht ̄tinth0.‘ltp‘ILL ・ 图1 Web ofScience标记记录输出页面截图 2.2从CNKI数据库批量采集数据 《中国期刊全文数据库》CNKI期刊数据库[6]是目前世 界上最大的连续动态更新的中国期刊全文数据库,收录国 ---——149---—— 2011年4月 现代情报 Journal ofModemInformation Apr.,2011 第3l卷第4期 V01.31 No.4 内8 200多种重要期刊,以学术、技术、指导、高等教 育及科普为主,内容覆盖自然科学、工程技术、农业、哲 学、医学、人文社科等各个领域;核心期刊收全率达到 99%,内容收录完整率在99%,出版时间不迟于纸本出版 后2个月。从CNKI网站导出题录数据与从WoS类似,只 是CNKI一次输出最多5O条,导出步骤见图2。 图2 CNKI选中的文献记录输出页面截图 3数据格式转换 对于从WoS数据库导出的纯文本格式数据,根据Excel 电子表格中的自外部导人数据功能即可生成表格。而由 CNKI数据采集到的文本数据转换成表则要复杂些。CNKI 导出的数据文件见图3。 文件(E)编辑(E)格式(Q)查看(Y)帮助(H) Title-题名: 应力波在非线性结构面介质中的传播规律 Author-作者:王观石;李长'拱;陈保君;李世海; SourcQ一文献来源: 岩±力学 Keg ̄ord一关键词:应力波;:结构面;;非线性变形;;频谱分析 Summary一摘要: 用切线刚度和法线刚度描述结构面特性.研究 介质的块体离散元程序(COEM)模拟结构面发生非线性变形条件 了应力波传播和响应,存在一个特征频率能够有效反映结构面 PubTime一发表时间: 2009。1 2。1 0 FirstOutg。第一责任人:王观石; Fund一基金: 国家自然科学基金重点资助项目(No.1063210o) Veer一年: 2009 P iod-期: 12 PageCount・页码: 3747-3752 Title一题名: 可冲刷坡面滚波数值模拟研究 Author 馋青:…多佩罩 志建j泉; 图3 cNⅪ导出的文本格式数据文件截图 格数据截图从图3可知,CNKI的导出数据与woS数据 库导出数据格式不一样,每条数据中的每个数据项(或称 为字段)是一行,数据与数据是两个回车符(段落符号), 没有制表符。如直接导入到Excel表,生成的表格数据如图 4,只有一列数据,一行是一个字段。要生成行对应一条数 据,列对应一条数据中的数据项形式规格的电子表格数据, 必须对原CNKI导出的文本数据进行转换。通过Ultra Edit 编辑器可以转换,在Word中也可置换。两个回车符替换为 一150一 一个回车符,并在文件首添加一制表符,再另存为纯文本 文件即可,转换后纯文本数据见图5。在生成Excel表格数 据时要注意:因cNⅪ导出的每条数据的数据项没数据时 并不默认为空单元格无数据内容,而是没有该数据单元格, 这就导致了生成后的表格数据列会错位。通过数据排序把 没有数据项的插入单元格,以使表格格式规范,规范后的 表格数据见图6。 Title一题名:应力波在非线性结构面介质中的传播规律 Author—作者:王观石.李长洪:陈保君:李世海: Source一文献来源:岩土力学 Keyword-- ̄链词:应力波,:结构面::非线性变形::频谱分析 Sumary一摘要: 用切线刚度和法线剐度描述结构面特性J研究结构面初始F PubTime-发表时间:2009—12—10 FirstDuty一第一翻壬人:王观石 Fund一基金: 国家自然科学基金重点资助项目(No.10632100) Year一年:2009 Period- ̄: 12 PageCount项码:3747-3752 Title一题名:可冲刷坡面滚波数值模拟研究 Author- ̄者:李侃禹:曹志先:刘膏泉: Source—文献来源:力学与实践 图4 CNKI导出直接导入EXCEL生成的表 文件 )编辑④格式(Q)查看凹帮助@ f『itle-题名: 应力波在j}线性结构面介质中的传播规律 Ke word-关键词:应力波;;结构面;;{}线性变形;;频磬分析St 量与其最大允许闭合量的比值对透射系数的影响。采用基于连续介 在岩体中传播是一个传播和块体响应的过程.结构面的存在影响了i 率的表达式.对岩体结构探测具有一定的指导意义。PubTime,j ̄ 重点资助项目(No.186321B8) Year。年:288S Period。期: Title-题名:可冲刷坡面滚波数值模拟研究 ̄uthor。作j 图5 CNⅪ导出数据经转换后的文本数据截图 Ti 如5c Kd 曲 酗u Is 9醒e il Vol Dcp Cite Ful!Txtfllfld 参数模§自玉i石 据 台巍:};;# 2∞ ll 篮缸 6 l】。l7 h石 ;}8J200 c(目 l 考 舶李小i 学张芤 :槲貅2 5。lI李小最3 313:3I7 41 h j6学翱J2909/“嘲 御事“ 袱强 剿榍髓2 事小最2 259-262+268 l硼铷2o09/cl目麴 压 翳李毁:航空学报Ⅱ 翳4;辩#2009-12-25事羲12 2301'2310 30 h航 判J2o09/c(目家I 节流 李 石 掌襁水加 毫立 20 l‘l5李目芙ll 1.1 ̄-!t8 h石 剃J2 ̄g/d酥I 三峡铂jl1j水力 水环境,.三峡永4 2009-12725尹惜6.43-48 ,28 h水力发《J2删c(目 让觐剃孝 科技熟抗冲削《正)20o 2009-7-28李家春14 jeli0 ̄h科技 J2删co61.p8f 高繇5刘 ÷目科 渗范不.##;##2009:4" ̄5刘日武4 6o6。616 1 ̄.#il39 h 目科{J20o9/c062.pJf 钱老}j《李翱 学进 研}《正) 2009-1l’ 李 春6 65t‘6 je!i0 ̄3g h 学懿J2OO9/c pdl 图6规范后的CNKI表格数据截图 4 编写ⅪML格式的转换文档 根据文献[4]提供的xml文档示例,编写相应的转换 Excel表格数据的XML格式文档,把编写好的文档上传至 机构知识库系统服务器相应的文件夹。以管理员省份登录 机构知识库网站,进入管理控制区的数据导人项。转换示 例见图7。 第31卷第4期 2011年4月 机构知识库内容快速建设方法 Apr.,2011 Vo1.31 No.4 0 I管用户 用户组 条目 理I IHECH—IR>管理员> 研究社群/专题 数据导入 请选择专题 请进择配置文件 上传exceI文件 全文路径 是否测试 是否调试 起始行 知识产出(19.56-2008L期刊论文 .= 支件格式注册 工作流 权限管理 编辑新闻 Joumal_Tran xm1 .= 堕:::I 缺省授权许可 内容统计 访问统计 ARp产出物数据导入 导出为EXCEL 匝匦垂互] 图7 EXCEL表格数据导入到m库网页截图 全过程。 5结语 参考文献 目前国内机构知识库的建设正如火如荼的开展,但同 时很多机构或大学都或多或少的遭遇了机构知识库平台建 好了,相应的也制定了,也在本机构的各种场合进行 [1]Search OF Brow ̄for Repositories(Open DOAR)[OL].hum// .opendoar.org/find.php.2010—12—15. 现场的、虚拟的宣传,却叫好不叫座,缘由是内容建设跟 不上。为了走出目前这种尴尬局面,本文试图从批量采集 [2]郎庆华.机构知识库长期保存的策略分析[J].情报理论与实 践,2010,(5):47—51,62. 数据再批量导入到机构知识库系统中,从而加快IR的内容 建设。文章指出,利用各机构已有的各种数据库,包括自 建的、购买的或能免费获得的,从这些数据库采集本机构 的知识产出物,生成规范的电子表格数据,再利用文献3 提供的批量导入程序把数据导入到IR系统中,从而加快m [3]赖辉荣.破解机构知识库建设中资源收集难题之策略[J].国 家图书馆学刊,2009,(03):59—61. [4]马建霞,祝忠明,唐润寰,等.机构知识库与科研管理信息化 环境集成的尝试[J].现代图书情报技术,2008,(2):14— 18. [5]http://apps.isiknowledge.Corn[OL].2010—12—15. 内容建设。文中以WoS和cN1(I为例,详细说明了数据采 集、整理、导出成EXCEL表格数据,再批量导入IR库的 [6]http:∥epub.cnki.net./ d2008/index.htm[OL].2010—12—15. :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: (上接第147页) 育,以培养员工在全球化市场条件下从事信息化管理的能 实现装备制造业的产业转型升级。 力。要加大培训的投入,实施人才本地化策略。 参考文献 4.5企业要加快实现管理模式创新 对于中国传统的工业企业而言,要实施企业信息化, 首先要进行业务重组,改变传统的企业组织及管理模式。 但是我国企业传统的管理机制、管理思想、管理方法与先 进的市场经济管理模式有很大的差距,所以企业的信息化 首先是管理模式的创新。企业信息化不仅仅是电子信息技 术在企业生产及管理领域中的简单应用,它对企业所产生 的影响是全方位的,只有把企业的技术创新与制度创新结 [1]中华人民共和国国民经济和社会发展第十二个五年规划纲要 [EB].http://www.ce.cn/)nv 22305305.shtml s gdxw/2ol 103/16/t20110316 [2]黄谊江.漫谈企业信息化[EB].http://www.Inlt/l&l ̄n.com, 201O一08—02. [3]崔新升.解读装备制造业信息化的现状、重难点和对策 [EB].http://bbs.it168.co[n,2009—07—10. [4]企业信息化“不差钱”却难在意识[EB].htlp://www. mie168.eom/re ̄d.aspx,2010一o4一o4. 合起来,使企业的信息化与管理的现代化相结合,企业的 信息化工作才会成功。 [5]中华人民共和国国家统计局,第三次全国工业普查办公室.关 于第三次全国工业普查主要数据的公报[EB].http://c.ccfv. cn/Ⅷ94o 【jj—detail.jsp?channelid=47417&record:2,2001—09 一装备制造业管理信息化是一个通过将信息技术和其他 高新技术与制造技术不断融合,从而不断改善企业生产、 经营、管理和产品开发行为,其潜力是巨大的。只要我们 O1. [6]安筱鹏.推进中国企业信息化进程的发展战略[EB].http:// www.eehinagov.com/gov/index.shtml,2008—10—16. 抓住重点,科学决策,装备制造业的管理信息化就一定能 够在提高企业的经济效益和竞争能力的同时,推动并逐步 一151— 

因篇幅问题不能全部显示,请点此查看更多更全内容