显示带有标签的帖子 元数据 . 显示所有帖子
显示带有标签的帖子 元数据 . 显示所有帖子

2019年5月21日

超越记录存储…机构知识库Digital 中国工业标准协会作为开放科学的服务

Digital 中国工业标准协会 is 的 institutional repository (IR) of 的 Spanish National Research Council (CSIC). 中国工业标准协会’s network of libraries 和 archives is in charge of 的 leadership 和 management of this IR.

A few preliminary notes: 的 institution 和 its libraries

中国工业标准协会 是西班牙最大的公共研究机构,欧洲第三大机构。它的研究人员约占该国所有科学生产的20%。其任务是促进,协调,发展和促进多学科的科学技术研究,以促进知识和经济,社会和文化发展的发展,并就这些问题培训人员并向公共和私营组织提供咨询。

中国工业标准协会’s 研究 scope involves 的 following fields:
  • 生物学和生物医学。
  • 人文和社会科学。
  • 自然资源。
  • 农业科学。
  • 物理科学与技术。
  • 材料科学与技术。
  • 食品科学技术。
  • 化学科学与技术。
的re are 研究中心 all over 的 country that belong to 中国工业标准协会. In a number of 的m 的re is a 图书馆和/或档案馆.

不多 服务 得益于完善的图书馆和档案馆网络,我们得以管理:
  • A discovery 工具 that provides access to all information resources (papers, books, digitalised collections, databases, 软件 licenses, etc.) kept, subscribed 和 managed by 中国工业标准协会’s libraries.
  • Remote access to those resources, despite not being physically in 的 institution.
  • 传统服务,例如借阅,馆际互借,用户/图书馆介绍,阅览室和文件复制。
  • 数字参考服务。
  • 机构资料库,用于存储研究成果: Digital 中国工业标准协会. 所有 members of 的 研究 community of 中国工业标准协会 can upload 元数据 -enriched files to it.
  • 的 Digital.CSIC Direct Archiving Service by which 研究 community can delegate 的 archiving of its 研究 outcomes to librarians so as to ensure higher-quality 元数据 和 a faster uploading.
  • 的 service GRANADO aimed at improving 的 management of libraries space as well as ensuring 的 conservation of its collections regardless of its format.
  • 中国工业标准协会提供的100%数字方案’的网络将其图书馆和档案馆提供给没有图书馆的CSIC机构。它包括一些 图书馆服务.

新的图书馆管理背景:从开放获取到开放科学

According to 的 Open Access (OA) libguide of 的 University of Pittsburgh library system (2019), Open Access refers to:
  • “A family of copyright licensing policies under which authors 和 copyright owners make 的ir works publicly available
  • 高等教育运动,旨在增加获得学术研究和交流的机会,而不仅限于作品的订购者或购买者
  • A response to 的 current crisis in scholarly communication”.
Although providing free online access to journal articles began many years before 的 term "开放存取" was formally coined, computer scientists had been sharing anonymous archives through FTP since 的 1970s 和 physicists had been self-archiving on arxiv since 的 1990s (History of 开放存取).

的 concept Open Access was not formally established until 的 2000s due to 的se statements: 的 Budapest Open Access Initiative (2002), 的 Bethesda Statement on Open Access Publishing (2003), 和 的 Berlin Declaration on Open Access to Knowledge in 的 Sciences 和 Humanities (2003).

Two ways to accomplish Open Access statements emerged: green (research outcomes published on IRs) 和 gold roads (papers published on OA on 的ir respective journals). However, 的 high costs of article processing charges (ACP) (Khoo, 2019) for pursuing gold road have resulted in that IRs are sometimes 的 only possible way for OA.

Not many years ago, 的 scope 和 sense of openness were widened by 的 Royal Society (2012) through its thought-provoking book 科学作为开放企业。开放科学的超越(Anglada& Abadal, 2018) have come to 的 European Union. Indeed, European Commission (2019) has taken it into account on its new policies regarding 研究 across Europe.

的 培育 Plus (Fostering 的 practical implementation of Open Science in 地平线2020 和 beyond) project designed this taxonomy that organises all 的 related concepts:

开放式科学分类法。资料来源:福斯特开放科学。
Open Science have brought out several relevant issues on how 研究 is carried out, its outcomes 和 benefits for society, 和 的 agents involved:
  • 第四次科学革命涉及大数据,数据挖掘和软件。
  • Speaking of outcomes, openness does not only refer to papers published on journals or proceedings, but also 的 研究 data regardless of its format, e.g. databases, photographs, 介绍s, web sites 和 pages, videos, didactic materials, datasets, 软件 和 code. Moreover, 研究 outcomes does not only belong to publishers 和 /or 研究 ers, but also to society.
  • 数据必须公平:可查找,可访问,可互操作且可重用(Wilkinson等人,2016年。GOFAIR,2019年)。
  • 道德至关重要:数据所有权,知识产权,研究完整性(SPARC Europe,2019年),隐私,安全性和安全性。
  • 与以往相比,对科学素养,科学传播和开放教育的投资需求更大。
  • 现在,研究机构与社会之间的多种伙伴关系是可行的。
  • Evaluation of science 和 its metrics must change, as 的 current cites-based system is not enough to 培育 开放科学 among scientists.

数字CSIC为开放科学和研究人员社区提供服务

Looking at this new data-information-and-knowledge environment we will undoubtedly have to face, librarians must wonder how to adapt ourselves, our libraries 和 profession to address 的 issue.

Specifically, as for 机构知识库, 的 following are 的 actions taking up by 的 Digital 中国工业标准协会 IR to go beyond any digital library 和 play a service role for 开放科学 和 研究 community.

数字保存

It goes without saying that 的 archiving of 研究 papers on IRs contributes to 的ir digital preservation. If we keep in mind 的 数字保存级别 established by 的 Digital Library Federation (2018), an Open Access Repository in 和 of itself can be a “tool” to cope with 的 five functional areas: storage 和 geographic location, file fixity 和 data integrity, information security, 元数据 和 file formats.

数字保存 must be planned. Although IRs can be a great deal of help, 的y must be 工具s that are integrated into a well-conceived digital preservation planification.

Digital 中国工业标准协会 (2019) currently offers 的 following digital-preservation-oriented actions:
  • 备份。
  • 磁带的存储。
  • 将格式转换为更安全的格式。
  • Periodic checks of 的 files integrity to prevent 的ir corruption.
  • Monitoring of 的 technology environment to foresee possible 移民s of obsolete formats or 软件 .
  • 用于数字保存的元数据。
  • 文件格式建议。

科学档案

Digital 中国工业标准协会致力于归档其机构的所有研究成果。正如我之前所说,根据开放的科学观点,成果涉及多种资源:在期刊或论文集上发表的论文,数据库,照片,演示文稿,网站和页面,视频,教学资料,数据集和软件。这恰恰是档案馆的任务:将由于整合和依赖机构的机构的活动而产生的所有记录存档和保存。因此,从某种意义上说,OA IR是其机构产生的科学文献。如果版权和知识问题不允许在“开放获取”上发布某些资源,这并不意味着这些人不能进行禁运或为了保护它们而不能进行封闭访问。

Digital 中国工业标准协会, which is built upon 的 软件 Dspace, has one community per field of knowledge in which 中国工业标准协会 研究 ers 研究 . I listed those fields in 的 first epigraph of this post, all of 的m are accessible via //digital.csic.es/community-list. 的re is a sub-community per each 研究 institute devoted to a determined field of knowledge. 的n, 的re are as many collections inside each sub-community as different types of information-or-data resources resulting from 的 研究 carried out by that 研究 institute. 的 principle of provenance is present, thus 的 archive of science.

公平数据

服用 公平原则 (GO FAIR, 2019) into consideration, I show how 的 IR Digital 中国工业标准协会 accomplishes 的m as followed:

可发现的

F1. It uses 的 handle system to assign an URI to each digital object.

F2. IR会发布内在的元数据,馆员确保上下文元数据,馆员与研究人员一起致力于描述过程,以确保丰富的元数据,例如使用的测量设备,捕获的数据单位,所涉及的物种,基因/蛋白质/其他是研究重点,观测或模拟天文数据集的物理参数空间,与纵向数据相关的问题和概念,材料特性的计算或有关实验的任何其他细节。

F3. Digital 中国工业标准协会 does it through dc.identifier.uri.

F4. They are, as Digital 中国工业标准协会 is indexed by 的 Spanish national aggregator RECOLECTA ,OpenAIRE,share.osf.io,core.ac.uk,base-search.net,Google学术搜索以及在以下位置注册 re3data.org.

可访问

A1.1 and A1.2. It uses OAI-PMH.

可互操作的

I1. 它支持MARC,Dublin Core,RDF,ORE,MODS,METS和DIDL。

I2 and I3。是的

可重用

R1.1. dc。权利 dc。权利 .license 被使用。

R1.2. dc.date.accessioned, dc.date.availabledc.description.provenance 被使用。

R1.3。这是部分完成的。数字CSIC倾向于使用 dc.description 作为最后的资源。

开放式同行评审模块

Digital 中国工业标准协会 have integrated 的 first 开放式同行评审模块 (OPRM) for 开放存取 repositories that allows to make 评论  and 评论  在已经存档的数字对象上。

开放式同行评审模块. Source: Digital 中国工业标准协会.
This 工具 is especially useful for receiving feedback that is bound to facilitate 的 improvement of 研究 outcomes.

研究的影响,(替代)指标和统计数据

How can Digital 中国工业标准协会 measure 的 impact of its archived files?

First all of all, in 的 web page about 一般统计, we can see 的m in terms of:
  • 每个社区的研究机构数量(知识领域)。
  • 每个社区的项目数。
  • 每个研究所的项目数(前20名)。
  • 按地理分布的研究机构数量。
  • 项目数量(按地理分布)。
  • 项目类型(文章,会议论文等)。
  • 每个研究所的归档项目类型。
  • Open Access: 的 percentage of OA items by type, year of deposit 和 community.
We can delimit 的m by date (year 和 /or month).

It also shows 的 number of archived objects by communities (field of knowledge), sub-communities (research centres), collections (types of documents per 研究中心) 和 authors. By 研究 groups 和 研究 projects are being tested.
Source: Digital 中国工业标准协会.
Source: Digital 中国工业标准协会.
Source: Digital 中国工业标准协会.
也可以查看 statistics of any of 的 communities 在视图数,子社区视图数,集合视图数,项目数视图和项目下载数方面。此外,我们可以在地理地图中(通过Google Maps API)按地区/国家/城市对时间进行检查。

对于单个存档的数字对象,我们可以按地区和时间查看其视图和下载。也有关于高度测量的信息。
Source: Digital 中国工业标准协会.
Source: Digital 中国工业标准协会.

研究人员网页

Digital 中国工业标准协会 provides 的 possibility to generate web pages for 研究 er. 的y consist of:
  • URI。
  • 带有精美图片的个人陈述。
  • 集成其他网络和ID的配置文件。
  • 统计。
  • Concentration 和 organization of all 的ir scientific production.

自动存档

Digital 中国工业标准协会 和 some publishers came to an agreement so that 的y are archiving all 的 journal papers on this IR as long as 的ir filiation contains 中国工业标准协会.

顾问服务

Digital 中国工业标准协会 和 its librarians give advice to 的 研究 community regarding a number of topics:
  • Technical use of Digital 中国工业标准协会 和 guidance in 的 元数据 description according to its policies.
  • 开放访问授权。
  • 研究人员和研究小组的资料。
  • 知识产权,版权和许可。
  • 公平数据。
  • 数据管理计划。

最后的想法

我们甚至可以衡量的关于开放访问重要性的意识日益提高(Dubinsky,2019)无疑是个好消息。但是,仅仅促进开放访问是不够的。机构存储库似乎需要从仅用于存储项目的数字图书馆发展而来。研究机构的图书馆员必​​须将他们的观念转变为面向服务的观念。服务在这里与开放科学和研究人员社区有关。我已经介绍了数字CSIC的最新发展,希望对其他图书馆员产生启发。 

参考文献

安格拉达湖Abadal,E.(2018年)。¿Quées la ciencia abierta?。 Anuario ThinkEPI,12,292-298。
doi:10.3145 / thinkepi.2018.43

Berlin Declaration on Open Access to Knowledge in 的 Sciences 和 Humanities (2003). Retrieved from //openaccess.mpg.de/67605/berlin_declaration_engl.pdf

贝塞斯达关于开放获取出版的声明(2003年)。从...获得 //legacy.earlham.edu/~peters/fos/bethesda.htm

布达佩斯开放获取倡议(2002年)。从...获得 //www.budapestopenaccessinitiative.org/read

数字CSIC(2019)。数字保存策略。从...获得 http://digital.csic.es/dc/politicas/#politica8

数字图书馆联合会(2018)。数字保存级别。从...获得 //ndsa.org/activities/levels-of-digital-preservation/

Dubinsky, E. (2019). Does 开放存取 make cents? Return on investment in 的 institutional repository. 学院&研究图书馆新闻,80(5)。 doi:10.5860 / crln.80.5.281。

欧洲委员会(2019)。开放科学。从...获得 //ec.europa.eu/research/openscience/index.cfm

促进开放科学。开放式科学分类法。从...获得 //www.fosteropenscience.eu/themes/fosterstrap/images/taxonomies/os_taxonomy.png

GO FAIR. 公平原则. Retrieved from //www.go-fair.org/fair-principles/

开放访问的历史。从...获得 //en.wikipedia.org/wiki/History_of_open_access

Khoo, S. Y.-S. (2019). Article Processing Charge Hyperinflation 和 Price Insensitivity: An Open Access Sequel to 的 Serials Crisis. LIBER季刊,29(1),1–18. doi:10.18352 / lq.10280

欧洲SPARC(2019)。通过开放科学和FAIR数据进行研究完整性。从...获得 //sparceurope.org/wp-content/uploads/dlm_uploads/2019/03/SPARCEurope_ResearchIntegrityBrief.pdf

皇家学会(2012)。科学作为开放企业。从...获得 //royalsociety.org/~/media/royal_society_content/policy/projects/sape/2012-06-20-saoe.pdf

匹兹堡大学图书馆系统(2019)。 @ Pitt开放访问:关于OA。从...获得 //pitt.libguides.com/openaccess

Wilkinson,M.D. et al(2016)。科学数据管理和管理的公平指导原则。 科学数据,3:160018。 doi:10.1038 / sdata.2016.18。

2016年5月3日

开放获取研究数据:瑞典的一个试点项目

延雪平大学图书馆的Ulf-GöranNilsson和Stefan Carlstein图书馆员做客座。


延雪平大学图书馆和two 研究 groups at Jönköping University, 儿童 (儿童,健康,干预,学习和发展)以及计算机科学和信息学目前正在参与一项开放研究数据的全国性试验研究。


在最近的几十年中,快速的技术发展为收集和提供信息带来了新的机遇和可能性。为此,它建立了进行研究的新方法。欧盟和瑞典研究理事会Vetenskapsrådet等众多资助者认为,从总体上讲,尤其是研究数据的获取,从经济角度而言非常重要。


To archive 研究 data was previously a responsibility of each institution in Sweden. But according to 的 Swedish Research Council's proposed guidelines for 的 coming years “关于开放获取科学信息的国家准则的提案“,现在大学将必须越来越多地承担起长期保存研究数据的责任吗?  术语,并在可能的情况下使其可用。


延雪平大学是五所大学中的一所,该大学参与了  瑞典国家数据服务,SND。瑞典研究理事会已任命SND作为协调社会科学,人文科学和卫生科学中现有和新建数据库的国家资源。 SND通过促进研究人员访问瑞典内外的数据为瑞典的研究提供支持,并在整个研究过程中为研究提供支持。 SND在瑞典境外介绍瑞典的研究。该项目于2016年4月开始,预计全年将继续。


该试点项目旨在开发一个模型,以应对瑞典大学和瑞典国家数据服务局将面临的挑战,这些挑战涉及对数字研究的长期保存和研究数据的可用性的日益增长的需求。该项目的一个重要部分是将权限从瑞典国家数据服务部门转移到该大学的研究支持部门RSU,以管理研究数据,元数据丰富,确保长期存储的格式并在数据可用时使之可用是可能的。 RSU是SND的概念,在此项目中定义为在IT部门和大学律师的支持下由大学图书馆和档案馆管理。档案馆与延雪平大学的大学图书馆是同一部门的一部分,这是图书馆与档案馆之间紧密联系的一个优势。研究支持小组将在下一步中以两种方式培训和支持研究人员。第一次培训将与SND一起与两个选定的研究小组一起进行,最后的培训将由RSU自行为更广泛的研究人员小组进行。


该试点项目的重点是研究数据管理中最重要的部分:处理各种类型的研究数据和文件格式,开发元数据管理表格,元数据配置文件和元数据标准,对数据有用的元数据进行评估二次研究,数据管理计划的设计,用于记录数据的分析工具和方法,开发用于归档研究文件的程序和职责,最后审查影响研究数据处理的基本法律方面。




2015年7月1日

开发策展准备项目研讨会

上周我参加了 一个非常有趣的一日研讨会 涵盖了数字策展的主题和 相邻的注意事项。我最喜欢这次会议的地方是 观众众多:房间里不仅充满好奇的图书馆员,而且还包括与之相关的艺术家 如何在数字领域(数字策展过程的一个方面)中最好地保存他们的创意输出,以及对 holistic nature of 数字人文环境中的策展。

一天开始于 黛布拉(Debra F.Laefer) who spoke about 的 higher-order rationale of 开放存取 within 的 digital realm (presentation entitled 开放存取数据的欧元和美分)。这可能包括满足机构和研究赞助要求的需求,还包括公众期望,这基本上与 the establishment of 公平获得纳税人赞助的研究成果。 Laefer also noted 直接研究员 公开共享研究数据并毗邻的好处 期刊出版物。例如,它们包括 所有权验证,吸引潜在合作者参加联合出版物,提供新见解和 在各种学术和非学术环境中及时使用它们。

卡尔帕纳·香卡(Kalpana Shankar) provided a brief 数字策展概论 通过划定其边界(它是什么,不是)。简而言之,数字策展代表了一系列活动 including 的 selection, preservation, maintenance, collection 和 archiving of digital assets. It covers 的 entire lifecycle of 的 digital item 和 not just an isolated activity, such as digitisation for example. Kalpana pointed out 的 various threats to digital material (from 软件腐烂 to sociopolitical issues) 和 offered cogent motivations for carrying out digtial curation efforts. Pertinent examples were provided to this end 和 的 数字策展生命周期模型 was discussed. 的 OAIS框架 was also introduced for 的 purpose of illustrating 的 considerations behind 档案系统的设计。

琥珀色 专注于她的演讲 关于创建数字保存计划的特定活动:1)确定您的兴趣或活动,2)描述兴趣或活动,3)使用评估选择一个子集,4)选择并计划一个保存策略。评价是指确定物质重要性和持久价值的棘手过程。根据上下文和范围,这可能会(在)认知上加重:对我而言代表价值的东西可能对您而言并不代表价值。在争取项目资金支持时,这项任务尤其困难。

珍妮·奥尼尔 reiterated 的 importance of digital file preservation 和 的n drilled into 的 conceptual 和 practical considerations around 元数据  附加到数字对象上。讨论了权限管理(创作共用)以及各种 DRI指南.

从馆员(我)的角度来看,数字策展 至关重要。考虑中 克里斯·艾伦·苏拉's conceptual model very much highlights 的 intricacies involved 这里。

 
 
最后,我想指出Charles W. Bailey最近发表的文章 研究数据策划书目,您可能会对其中的某些内容感兴趣。该选择性书目包括350多个 English-language articles, books, 和 technical reports that are useful in understanding 的 curation of digital 研究 data in academic 和 other 研究 institutions.

2015年5月14日

开放获取和研究数据管理:Horizo​​n 2020年及以后(UCC,2015年4月14日至15日)

来宾留言者 莫拉·弗林, 布雷达·赫利希(Breda Herlihy)罗南·马登 ,全部 UCC 图书馆

演讲者和组织者第一天。图片由Richard Bradfield提供

为期两天的培训活动于4月在UCC举行,由 UCC 图书馆, UCC 研究支持服务, Teagasc 和的 爱尔兰储存库网络 (RNI). 的 first of its kind to be held in Ireland, 的 event introduced attendees to 的 concepts of open 研究 和 研究 数据管理 within 的 context of 地平线2020. With speakers from 的 U.K. 和 Ireland sharing best practice, 的 event was an invaluable learning experience, 和 timely in 的 context of 地平线2020’s 开放数据试点.

To stage 的 event, 的 project team was successful in securing funding from 的 FP7 funded 培育 project. 培育 (促进欧洲研究的开放科学培训)是一项由欧盟资助的为期两年的项目,旨在促进& ‘foster’ 开放科学 in 研究 , 和 to optimise 研究 visibility 和 impact 和 的 adoption of EU 开放存取 policies.

研究数据管理(RDM)通常指组织,构造,存储和保存研究项目期间使用或生成的数据的过程。现在有许多因素正在影响开放数据的驱动力,但是其中主要的因素是寻求透明性的资助者的影响,并证明了他们资助的研究的更广泛影响。在Horizo​​n 2020中,正在实施一项开放访问研究数据的有限试点,需要参与项目以制定数据管理计划(DMP)。期望像英国一样,这种需要数据管理计划的研究资助计划的趋势将继续下去。

除了合规性之外,RDM还通过重用数据的潜力以及展示卓越研究成果的机会使研究人员和机构受益。许多机构通过建立研究数据政策并寻求协调跨校区方法来收集和维护数据而发挥了带头作用。这通常涉及研究支持服务,IT团队,图书馆和研究人员一起工作。但是,RDM已被描述为 考克斯等 。 (2014)作为‘wicked problem’,复杂且难以定义,因此需要灵活而务实的解决方案。在许多爱尔兰机构中,RDM仍处于早期阶段,该活动提供了一个向其他人学习的机会,并可以利用这些人的专业知识。这也是在爱尔兰和英国的机构内部和之间建立联系的机会。

大卫·奥康奈尔(David O'Connell)开幕第一天。图片由理查德·布拉德菲尔德(Richard Bradfield)提供

第一天:‘Open 研究 in H2020: 如何增加成功的机会’

第一天针对有兴趣制定Horizo​​n 2020提案的研究人员和中小型企业。大卫·奥’Connell, Director of 研究支持服务, UCC , provided 的 opening remarks, mentioning that as former chief editor of ‘自然评论微生物学’ he has had a long interest in 开放存取 publishing, 和 a strong interest now in 的 application of 开放存取 to 研究 data.

的 project team were lucky to have support 和 guidance from Martin Donnelly from 的 数字策展中心 (DCC)。 DCC是位于英国的世界领先的数字信息管理专业知识中心,可为高等教育提供专家建议。马丁在活动的筹备过程中发挥了不可估量的咨询作用。尽管由于不可避免的原因他无法参加会议,但他在短时间内为活动提供了四个录制的演示文稿。第一天以他的第一个演讲开始:Horizo​​n 2020中的开放科学和开放数据概述。他首先提供了开放访问和RDM的背景知识,回顾了FP7中的开放访问,然后回顾了Horizo​​n 2020中的开放科学,以及开放数据试验的细节。

Joe Doyle, Intellectual Property 管理r, 企业爱尔兰,提供了知识产权与创新和协作之间关系的背景,并将知识产权描述为创意与商业之间的桥梁。开放访问可以产生更大的协作,但是重要的是要认识到免费访问的内容不一定可以无限制地免费使用。开放访问和专利可以并驾齐驱,因为专利是关于数据公开的。虽然他们可以’如果要复制,可以从以前的创新中学到很多东西。

莱斯特大学健康科学系高级研究员Jonathan Tedds从研究人员的角度谈到了RDM,并举例说明了他参与过的项目以及遇到的问题。最初,他以自己作为天文学家的工作深信数据共享的好处,‘stitch together’他生成的数据可重复使用。他引用了皇家学会(2012)的报告‘科学作为开放企业’提出在不提供数据的情况下发表文章是一种科学上的渎职行为,他指出,现在基于重用已归档观测值的论文数量已经超过了原始提案中描述的论文数量。但是,许多领域的研究人员,尤其是参与较小项目的领域的研究人员,需要帮助来满足资助者的要求。他强调研究和数据管理计划的迭代性质,以及维持研究软件(不仅是基础数据)的挑战。的 卤素 project was a good example of combining different kinds of data from different fields, achieved by creating a central scalable database infrastructure to support 的 project. 的 BRISSkit 该项目涉及开发软件以链接应用程序,以创建匿名(同意)患者数据的数据仓库。它将床旁患者数据带给大学研究人员,用于新的生物医学研究。

集体射击。图片由Richard Bradfield提供


In 的 afternoon, Martin Donnelly’s second 介绍 focussed on 数据管理 plans (DMPs), providing an overview of 的se 和 的ir benefits. He went on to outline various data related policies 和 requirements in Europe 和 elsewhere, plus 的 supports 和 resources that are available to those writing DMPs, including those provided by 的 DCC. He demonstrated 的 DMPonline 工具, which was 创造d by 的 DCC, 和 can be customised by institutions. It can be used by 研究 ers at 的 point of application 和 throughout 的 研究 project, 和 can be used for sharing 和 co-writing plans.

布莱恩·克莱顿 研究云服务 UCC 经理将RDM视为UCC的一项正在进行中的工作。他介绍了当前的UCC研究云付费服务,其中包括数据存储和计算服务。该服务已扩展为提供数据管理元素,并且RDM政策草案目前正在等待大学委员会的批准。期望能够以零成本向研究人员提供RDM服务。需要探讨许多悬而未决的问题,尤其是在数据共享,元数据以及谁将在大学中扮演各种角色方面。

彼得·穆尼(Peter Mooney),环境研究科学家, 环保局, looked back at over a decade of RDM at 的 EPA. As far back as 2004 的 EPA made a commitment to 研究 ers 的y were funding, that 的y would preserve data free of charge, 和 be responsible for long term management 和 infrastructure. 的 SAFER数据存档 于2006年启动,将数据链接到论文和报告。与研究人员的合作一直是其成功与发展的关键。现在,数据报告已成为EPA资助项目的报告过程的重要组成部分。他概述了一些经验教训,并建议开放数据经常被研究人员误解,而元数据通常是一个谜,或者被视为负担。在项目开始时正确地对数据建模可以提高可用性,并且研究人员将从了解关系数据库的基础中受益。例如,他列举了对Excel的过度依赖,而不是使用数据库。他还告诫不要长时间禁运,这只会使数据失去相关性。

的 final speaker of 的 day was Evelyn Flanagan, Data 管理r at 的 UCC 临床研究设施,她谈到了她在临床试验中担任数据经理的角色。在讨论了数据管理的核心原理之前,她讨论了数据管理的核心原理如何成为良好临床实践(GCP)的基本要素。‘data sequence’ from protocol design right through to 的 report writing stage. She examined each stage of 的 process, including database design for case report forms (CRF), 的 importance of good 元数据 , data collection 和 data entry procedures. Like 的 previous speakers she stressed 的 value of DMPs at 的 early stages of a project, 和 how 的y underpin good practice at each stage of 的 数据序列.


约翰·菲茨杰拉德(John Fitzgerald)开幕第二天。图片由理查德·布拉德菲尔德(Richard Bradfield)提供
第二天‘研究数据管理 –’

的 second day of 的 event was aimed at institutional support staff who can provide support to 研究 ers engaging with RDM. Many speakers came from 的 UK where 的 policies of 的 UK 研究 funders (RCUK) require 研究 ers to engage with RDM. In Ireland, 的 Horizo​​n 2020中的开放数据试点 is 的 first signal that 研究 performing institutions 这里 will have to address RDM in 的 coming years.

大学图书馆馆长兼UCC信息服务主管John FitzGerald在开幕词中提到RDM将如何‘挑战我们作为专业人士,面临很多策展问题’ as we seek to ‘管理数据存在的生态系统’。当天的第一位受邀发言人是DCC的Martin Donnelly,他为支持人员提供了有关RDM的清晰概述。尽管无法亲自参加活动,但马丁提供了录制的演讲,受到了现场与会者的好评。

Stuart McDonald, Research Data 管理ment Service Co-ordinator, 爱丁堡大学谈到了他们对RDM服务的综合方法,该方法始于JISC资助的试点项目,始于2008年初。当他概述了爱丁堡RDM计划的资源和人员配备时,有些喘息的声音£通过内部资金分配了120万。除了资源外,还可以看到爱丁堡在研究之前,之中和之后如何进行数据管理。他们现在正在研究如何确保用于数据管理的系统不会重复研究人员所需的工作,他们无疑会很高兴听到这些消息。

David McElroy, Research Services Librarian at 的 东伦敦大学, demonstrated how 的y have used Eprints, 的ir existing institutional repository 软件 , to 创造 a new data repository, 数据包 . Publications archived in 的ir 开放存取 publications repository are 的n linked to underlying data archived in 的ir data repository. This of course ensures traceability 和 reproducibility of 研究 . It was really useful to see 的 repository development path taken from decision making 和 planning to functional 和 元数据 specifications 和 right through to mock ups 和 branding.

第三位发言人乔纳森·格里尔(Jonathan Greer)强调了 贝尔法斯特女王大学 正在‘incremental approach’ to RDM 服务 as 的y seek to align 的 plans 和 policies of 的 institution with 的 practice of 的ir 研究 ers. He offered some consolation to those uninitiated in RDM 服务 by relaying how challenging it can be to roll out a service in such a complex area.

In 的 afternoon, Gareth Cole, Research Data 管理r at 拉夫堡大学和formerly of 的 University of Exeter, outlined how both university libraries approached 的 delivery of training 和 support. This was very useful as it became clear throughout 的 day that 的re is no one size fits all approach to RDM 服务 .

Julia Barrett, Research Services 管理r, UCD Library, summarised how she has shaped 的ir 研究 服务 to facilitate effective 数据管理和sharing in UCD. It was encouraging to see 的 potential for a range of 服务 which 的 library can offer 和 Julia has categorised 的se into ‘Discover’; ‘Create / Analyse’; ‘Manage’ 和 ‘传播/发布’ 服务 .

Louise Farragher, Information Specialist, Health Research Board, introduced 的 PASTEUR4OA project which seeks to align 开放存取 policies across Europe. While an earlier question from 的 audience queried 的 effectiveness of lots of policy, Louise was quick to reinforce 的 message that policy is a good starting point for 开放存取 adoption.

Finally Dermot Frost, Research IT 服务 at Trinity 学院Dublin, gave an engaging account of his experiences of developing 的 technical infrastructure for 的 爱尔兰的数字资料库 (DRI)。 DRI是‘绿地仓库’,将于2015年6月在 DPASSH 并且是爱尔兰’s trusted repository for humanities 和 social sciences data. 的 DRI has had a large inter-disciplinary project team 和 Dermot stressed that while 的 language barrier (tech vs. non-tech) can be challenging, it was very useful for 的 exchange of ideas to have different 人 on board.

Q&第2天的演讲嘉宾。图片由Richard Bradfield提供

总体带回家的消息

1. Challenging: developing RDM 服务 can be challenging due to 的 complexity 和 variety of 研究 data. However, it is possible to learn from established 服务 at other institutions. 所有 speakers were very open to sharing 的ir own experiences, 工具s 和 resources for late adopters of RDM 服务 . 所有 highlighted 的 well-established 服务 available in 的 UK e.g. 数字策展中心 as well as various online 工具s 和 resources which can be reused.

2.规划:在首先建立对利益相关者需求的理解之后,规划路线图至关重要。斯图尔特·麦克唐纳(Stuart McDonald)讨论了在开发RDM政策和服务之前,爱丁堡使用的数据审核框架,以识别研究数据资产及其管理。 Dermot Frost提到‘存储库需要数据来证明其存在的合理性 ’因此DRI设有利益相关者咨询小组,以确保存款人从计划阶段就参与进来。

3. Cross campus collaboration required: due to 的 complexity of RDM, 的 different types of stakeholders involved 和 emerging funder requirements, coordination across 的 institution is essential for an effective approach to service development.

4. Planning at 的 研究 project level: 的 importance of DMPs in 的 early stages of projects was emphasised by all Day 1 speakers. 的y ensure good 数据管理 practice at each stage of 的 研究 process.

参考文献

Cox,A.M.,Pinfield。 S.,&Smith,J.(2014年)。搬砖造房:英国图书馆将研究数据管理作为一项工作‘wicked’问题。图书情报学杂志,46(4),299-316。 doi:10.1177 / 0961000614533717

Royal Society. (2012). 科学作为开放企业. Retrieved from //royalsociety.org/policy/projects/science-public-enterprise/Report/

2015年5月8日

数字保存:不仅仅是云& Unicorns (ANLTC – NLI 29th April – 1st 可能 2015 – Report)

来宾留言者 伊莱恩·哈灵顿,特别收藏馆员, UCC 图书馆

I had previously attended a one-day seminar run by 的 DPC on Getting Started in Digital Preservation. This three-day course run by 的 DPTP is an intermediate course for practitioners of digital preservation. Over 的 course 埃德·平森,数字档案管理员和 斯蒂芬·泰勒,一位高级顾问 伦敦大学计算机中心 (ULCC) showed us 工具s, methods 和 strategies for engaging with digital preservation. We viewed practical examples, examined case studies 和 challenging 和 complex objects, 和 participated in group exercises to better understand what digital preservation is.

Over 的 three days 的re were moments when I thought I was in a different universe where acronyms ruled (AIP, SIP, DIP,  JHOVE,PLATO,SCAPE,SCOUT,METS,MODS,TDR)或《星球大战》’ set (constant references to DROID) or looking at antique cars (parallel situation of finding parts to replace wear 和 tear in cars or older technologies). By 的 end of third day I was beginning to return to Earth.

该课程分为多个模块,每个模块持续约45分钟。尽管该课程是密集课程,但仍有很多机会提出问题,并且Ed和Steph包括了很多示例。在某些时候,例如当我们讨论时‘migration’在数字保存方法中,我们注意到‘migration’还将以文件格式显示,并作为‘迁移策略练习。’

Due to sheer volume of concepts 和 information covered over 的 three days it is impossible to write about all 的 modules.

什么是数字保存?
According to 的 National 封存 s at Kew a digital preservation policy is 的 mandate for an archive to support 的 preservation of digital records through a structured 和 managed digital preservation strategy.” In practical terms 的 following are needed for digital preservation:
一个数据库来管理保存和存储元数据
工具s to perform ingest functions
一个存储数字对象的地方
访问或交付平台
规则,工作流程,政策
IT基础架构
人 和 skills

OAIS模型
Ed 和 Steph used 的 OAIS模型和its terminology throughout 的 course to illuminate 的 digital preservation process.

礼貌的 伦敦大学计算机中心



Day 1
在第一天,我们检查了OAIS模型是什么以及使用它的一些含义。这很有用,因为它将在接下来的三天内用于某些小组练习中,并且我们将使用适当的术语。本节后面是有关数字保存和练习方法的模块;重要属性和绩效模型;文件格式:其结构和处理方式;和从业者的元数据。重要属性取决于文件类型:运动图像有16个重要属性,而音频有6个重要属性。

It was clear from 的 exercise on digital preservation methods that while we understood what was being said to us it was another matter entirely to be given a method 和 to discuss 的 pros 和 cons of that method. Approaches included: 移民, emulation 和 technology preservation. 的 group I was in was given 的 bit-level only approach which focuses on maintaining only 的 1s 和 0s of code.

礼貌的 伊莱恩·哈灵顿


It was a little bit worrying when Ed said that someone (not on 的 course!) thought a way to preserve technology was to dip a laptop in Perspex 和 的n chip it off in 20 years! If 的 computer specs were known 和 3D printers still exist in 20 years’也许有可能3D打印修复物理技术所需的任何零件。

真实的例子用来解释每个模块。例如 迪奥斯里 用来演示仿真的工作原理。国立图书馆& 封存 s of 的 Netherlands use 迪奥斯里 to run old operating systems such as DOS 和 WordPerfect 5.1.

礼貌的 伦敦大学计算机中心


Ed和Steph还提到了Atari系统和Pac-Man。 剑桥计算机历史中心 was established to tell 的 story of 的 Information Age through exploring 的 historical, social 和 cultural impact of developments in personal computing.

礼貌的 剑桥计算历史中心。


Day 2
On 的 second day we covered XML格式for digital preservation; 工具s for ingest; how to do 移民 including an exercise; METS; PREMIS 和 an exercise; making a business case 和 an exercise; assessment, audit 和 TDR.

XML是可扩展标记语言。像HTML一样,XML使用标签,而HTML描述表示XML描述内容。可能有:
XML格式Schema which has specification for elements 和 tags you will use. In a digital preservation plan 的 schema being used must be declared.
XML格式Stylesheet which displays 的 underlying XML格式and renders text in useful way for readers
XML格式Document which is 的 document you are authoring 和 which describes 的 object.

XML是一种可保存的文本格式,因为它是开放的,有文档证明的,并且与供应商或平台无关。这对于存储和传输元数据都很好。元数据有不同类型:描述性,技术性,权利,结构性和保留性,XML可以用来描述它们。国会图书馆使用XML表示MARC,MODS和METS中的元数据记录。 XML可以封装一个数字对象,并用于构建和AIP(请参阅OAIS模型)。 XML允许互操作性。

礼貌的 伦敦大学计算机中心


XML格式& Migration
仅仅对文件进行数字保存还对元数据进行数字保存是不够的。元数据可以在数据库内与对象分开存储,也可以将元数据嵌入需要保存的文件中。元数据可用于源文件格式,以及在迁移到新的目标文件格式时(例如,将单词移动到pdf)。迁移演习就像搏击俱乐部:总会有损失。我们必须决定何时迁移可能丢失的东西,什么是可接受的损耗,什么不应该丢失的东西(例如重要属性)以及需要做出什么选择以便仅发生可接受的损耗。 Ed和Steph建议在迁移之前做非常详细的用例。

Day 3
On 的 third day we looked at 元数据 exercise; email preservation; social media: communicating with 的 user community; social media: user community 和 engagement; understanding legal issues for preservation 和 access; preservation of databases; 和 managed storage.

元数据练习
On paper we were shown a painting 和 its museum cataloguing record. 的 painting had been digitised 和 元数据 was present. 的re were gaps in 的 元数据 which had to be identified 和 what preservation data was also required. This exercise highlighted that no matter 的 source of 的 元数据 some 元数据 will not be present.

礼貌的 伊莱恩·哈灵顿


云储存
云存储提供商应符合ISO标准,并应注意审核标准。演习中的讨论表明,拥有云存储的机构至少应将持有量限制在欧盟范围内。如果将资料保存在云上并转移到美国,则它受制于不同的版权法和不同的数据保护。版权法尚未赶上数字内容。确实,如果数字保存项目得到欧盟的资助,则可能需要将存储,云或其他方式留在欧盟。云公司不’提及对象将被存储多长时间,并考虑技术变化有多快(谁还记得VHS或Betamax?),对象是否需要在很短的时间内建立新的数字保存存储设施?同样值得关注的是成本:将对象插入云存储可能需要很少的钱,但是从云存储中提取对象可能需要很长时间,并且要花费更多的钱。如果请求一个对象,它将通过多个国家’在到达目的地之前?随着云提供商定期移动数据,可能会发生这种情况。 我们建议您务必仔细阅读细则!

结论
数字保存比将对象放置在云存储中要多得多,所有过程和细节都是真实的,而不像独角兽那样虚构。无论选择哪种数字保存方法,无论选择哪种存储方法进行数字保存,以及在此过程中使用哪种工具,都需要进行大量讨论。显然,我们所有人都应该参与数字保存,并且我们现在应该参与。

Thanks to 埃德·平森 和 斯蒂芬·泰勒 who shared 的ir experiences 和 expertise so freely. 的 slides are available through 创作共用 和 UCLC. Thanks also to 美国国家训练中心 NLI for organising 和 hosting 的 event.

2015年4月24日

福斯特|开放获取和研究数据管理研讨会幻灯片现已提供

所有 介绍 slides of 的 寄养事件 发生在 UCC 4月14日至15日可在线访问以下网站:

第一天(4月14日) | H2020开放研究– 如何增加成功的机会
H2020开放科学和开放数据概述
英国数字策展中心高级机构支持官Martin Donnelly先生

应对协作中的IP挑战,并使数据可公开访问
Mr. Joe Doyle, Intellectual Property 管理r, 企业爱尔兰

成功使用研究数据管理原则(希望!)
莱斯特大学健康科学系高级研究员Jonathan Tedds博士

专注于数据管理计划–政策,要求,资源,实例
英国数字策展中心高级机构支持官Martin Donnelly先生

UCC 研究数据管理
Mr. 布莱恩·克莱顿 研究云服务 管理r, UCC

变革带来的变化:十年环境研究数据管理的经验
环境保护署环境研究科学家Peter Mooney博士

UCC 临床资料管理
Dr. Evelyn Flanagan, Data 管理r, UCC 临床研究设施

++++++++++++++++++++++++++++++++++++++++++++++++++++ +++++++++++++++++

第2天(4月15日)|研究数据管理–
研究数据管理(RDM):支持服务需要了解什么… 和 do?
英国数字策展中心高级机构支持官Martin Donnelly先生


照顾您的数据:爱丁堡RDM @一种机构方法
Mr. Stuart Macdonald, Research Data 管理ment Service Co-ordinator, 爱丁堡大学


使用现有的机构存储库基础结构来支持RDM
东伦敦大学研究服务图书馆员David McElroy先生


Preparing a Research Data 管理ment response: policy, infrastructure 和 practice
Dr. Jonathan Greer, Research Information 管理r, 贝尔法斯特女王大学


RDM中的图书馆培训,支持和指导
Dr. Gareth Cole, Research Data 管理r, 拉夫堡大学


促进都柏林大学的有效数据管理和共享:校园范围内的新图书馆服务
Ms. Julia Barrett, Research Services 管理r, UCD Library


专注于数据管理计划– helping 研究 ers develop 的ir plans
DCC高级机构支持官Martin Donnelly先生


PASTEUR4OA (欧盟研究的开放访问策略调整策略)
健康研究委员会信息专员Louise Farragher女士


Lessons learned developing 的 爱尔兰的数字资料库
Mr. Dermot Frost, 管理r of 的 Research IT group, Trinity 学院Dublin & TCD Principal Investigator for 的 爱尔兰的数字资料库


非常感谢Breeda Herlihy及其同事组织和推动了这个有关RDM的最有用的研讨会。

所有幻灯片均位于CC-BY下。

2015年4月10日

开放获取和研究数据管理:Horizo​​n 2020及更高版本

来宾留言者 布雷达·赫利希(Breda Herlihy),经理 科拉 , 的机构知识库 UCC  





This week sees 的 running of a two day training event at UCC 图书馆 which will introduce attendees to 的 concepts of open 研究 和 研究 数据管理 within 的 context of 地平线2020. 的 event has been organised jointly by UCC 图书馆 together with UCC 研究支持服务, Teagasc 和的 爱尔兰存储库网络(RNI). 的 hosting of 的 event in UCC 图书馆 was made possible through funding from 的 FP7 funded 培育 project. 培育 aims to set in place sustainable mechanisms for EU 研究 ers to 培育 开放科学 in 的ir daily workflow. 
Both days of 的 event are aimed at different audiences 和 bring speakers from across Ireland 和 的 UK to Cork to share 的ir experiences with 研究 数据管理 和 all it entails. 的 second day 将会 of particular interest to librarians since it is designed for staff who support 研究 数据管理 in 研究 performing institutions. This day has been accredited by 的 爱尔兰图书馆协会 持续专业发展(CPD)。
Registration for 的 event has closed but proceedings can be followed via Twitter using 的 hashtags #rdmucc #fosteropenscience. Slides 和 recorded 介绍s 将会 made available after 的 event on 的 培育 website. 
第一天,4月14日,星期二。 H2020的公开研究: 如何增加成功的机会 

第一天针对有兴趣制定Horizo​​n 2020提案的研究人员和中小企业(SME),并将提供: 
Horizo​​n 2020中的开放科学和开放数据概述 
成功使用研究数据管理原则进行研究项目的案例研究 
Case studies from current Irish 服务 engaged with 研究 数据管理 including 的 环保局 和 的 UCC 临床研究设施

第2天。4月15日,星期三。研究数据管理–
第二天针对机构支持人员,包括图书馆人员,IT服务,研究支持人员和项目经理,并将提供: 
研究数据管理简介 
现有机构研究数据管理服务的案例研究,包括爱丁堡大学,东伦敦大学,拉夫堡大学,贝尔法斯特女王大学和都柏林大学。 
有关如何为研究执行机构的研究人员提供支持的信息

提供两天的详细计划 这里  
获取更多资讯,请联系 [email protected] 

2014年9月23日

On 的 Value of Popular Music 封存 s




戴夫·格罗尔(Dave Grohl)在软木的巴尔的摩商店外© Siobhan O Mahony
UCC 图书馆, as part of 的 Sir Henrys @UCC Library exhibition, recently hosted a 圆桌讨论 [email protected]: On 的 Value of Popular Music 封存 s. 的 speakers were from within 和 without 的 academy 和 provided some interesting insights on 的 area of archives 和 popular music.

的 speakers on 的 panel were 史蒂夫·格兰杰克罗南·奥·多布林雷·斯堪内尔, 杰兹·柯林斯(Jez Collins) and Siobhan O Mahony。面板 was chaired by 艾琳·霍根(Eileen Hogan)。一些有洞察力和有趣的见解 were provided from 的 floor by, amongst others,  安迪·莱恩汉亚伦·凯西格里菲斯·罗夫森, Luke O Brien & John Byrne.

What follows below is a quick summary of ideas discussed in 的 session.

  • 由于社交媒体是许多人生活中不可或缺的一部分,因此我们现在在直觉上更加了解存档,它是什么以及如何进行存档。现在,我们实际上记录了我们的日常生活。当我们在Facebook或Instagram上发布自己的照片时,我们正在存档我们的生活。当我们在Twitter上发表评论时,我们正在归档我们的想法。当我们写博客时,我们是在归档我们的思想和想法。有了社交媒体,以及我们如何使用它, 我们都在努力成为DIY档案管理员。
  • Popular Cultural archives within 的 Institutional setting are slowly beginning to appear. But it is still 的 case that American universities are far more open in 的ir approach to popular cultural archives than 的ir European counterparts.
  • 展览会惹人注意。他们应该动摇我们,使我们思考并以不同的眼光看待事物。一个好的展览总是会做到这一点。
  • 社交媒体网站是用于研究或存档数据的绝佳资源。 Facebook,Twitter,Instagram等网站对那些寻求材料的人来说是一个福音。但是这些站点上有太多隐藏资源-挖掘这些丰富资源并不总是最容易的。  看到在这些站点上查找资料有多困难,说明了元数据在增加对资源的访问中的关键作用。
  • Facebook是必不可少的邪恶。材料太多了 being posted 的re - but it all gets lost so quickly 和 is 的n extremely difficult to retrieve.
  • 如果您有个人 存档,您需要确保它能继续存在。 That archive 最终可能成为您的遗产。
  • Libraries 和 museums need to engage with 的 DIY or hobbyist archivists. Often, 的se archives are 创造d through passion - what happens 的 archive when 的 person is no longer around to maintain it? Often it dies out with 的 person who 创造d it 和  upkeeps it.
  • 杂志和报纸 一直在寻找现场演出 photos. 的re are so many amateur pictures out 的re that could be licensed. Siobhan O Mahony, for example, has had her 库尔特·科本(Kurt Cobain)和戴夫·格罗尔(Dave Grohl)的照片发表于 的 Irish Times. Posting 的se images on Facebook throws 的m out into 的 public domain.
  • For 的 library, Popular Music 封存 s are a great way of engaging with 的 community. 的 Sir Henrys @ UCC 图书馆 Exhibition has been a great success in drawing 人, many of whom have never even been on UCC grounds before, into 的 library. 的 footfall has been tremendous.
  • 众包材料存在问题。例如,人们可能会非常珍惜自己的材料。他们对此有一种情感上的依恋。机构档案管理员的问题是-如何获得 the people to let go of 的ir material? How does 的 Institutional 封存 encourage 人 to donate 的ir material? How do we get 的m to break this emotional tie 的y have with 的 material?
  • 的 process of curating an exhibition is like 的 process of writing a play - you are creating a narrative, you are telling a story.
  • 必须告知具有良好材料的DIY档案管理员不要将捐款塞在抽屉里。 材料时要格外小心。 资料已正确存档,可以保存数代。 The DIY Archivist 必须展示其材料 will be 已搞定。他们需要走过 the institutions archives to show how the material 将会 cared for. 的y need have explained to 的m how 的 material 将会 catalogued, 和 stored 和 preserved 和 how access to it 将会 provided.
  • 关于存档流行音乐资料,可持续性和可及性是两个主要问题。
  • Discussion with potential donors can be a long drawn out process. It can literally take years. Relationships need to be built between 的 donor 和 的 institution.
  • 的 pictures that 人 take at gigs or clubs, for example 的 work that 卢克·奥布赖恩has done in recording 的 Dance / Sweat scene in Henrys 是文化历史或现象。他们正在捕捉后代现象。
  • 我们做展览 与社区互动,展示我们的收藏或刺激 并引起讨论。
  • 亨利爵士的展览是创造新事物的机会。它 是一个机会 create something beyond 的 older printed books.

对于那些希望阅读的人 more, 和 / or listen to 的 full event, 杰兹·柯林斯(Jez Collins) has posted a 报告,带有完整的音频, of 的 discussion 这里。



2013年12月8日

Google / OpenRefine 用于元数据清除和链接数据

Last Friday, I attended a half-day workshop at 的 放射免疫 , which provided a birds-eye view introduction to GoogleRefine. 的 morning session kicked off with a 45-minute recap on 的 history/complexity/limitations of databases. 的 rest of 的 time was spent playing with OpenRefine .

GoogleRefine(现在称为OpenRefine)是用于数据清理和转换的独立开源桌面。它显示为平面表,但其行为类似于关系数据库。它’是一个非常强大的工具,需要一些脚步和练习才能充分发挥其潜力。

An immediate 和 very practical use of 的 软件 includes 的 ability to clean up messy 元数据 effectively. Say you have an export of a text file with some semi-structured data; you can edit it using transformations, facets 和 clustering to re-structure 的 data.

屏幕截图“categories” for sample data-set
http://data.freeyourmetadata.org/powerhouse-museum/phm-collection.zip


















GoogleRefine还可以用于将数据值转换为其他格式,并通过网络服务进行扩展,例如 地理编码 地址到 地理坐标.

查看 http://collection.cooperhewitt.org/people/18060335/ 作为链接元数据(人员搜索)的一个很好的例子。

资源:
OpenRefine (项目主页)
OpenRefine 入门
使用OpenRefine:手册

2013年10月21日

Life is lossy: a preliminary review of 的 current Coursera MOOC on 元数据 by Jeffrey Pomerantz博士

来宾留言者 贾达(Giada Gelli),LIS专业


谁到现在为止’t heard of MOOCs (Massive Open Online Courses)? I certainly had heard of this relatively new phenomenon, but had never given it too much weight. After all, I was not in college nor working in 的 academic field during what can be considered 的 explosion of 的 open online education revolution. Wikipedia tells me that MOOCs were born in 的 form we know 的m today in 2008, but 2012 seems to have been 的ir absolute year of fame with even 的 New York Times dubbing it 的 ‘Year of 的 MOOC’.

At 的 end of last month, as I found myself facing another spell of unemployment with nothing lined up in terms of work (thank you, recession), 的 sudden realisation of a lot of newly-gained free time prompted me to have a look at what MOOCs offerings were out 的re. I had a look at one of 的 major players in 的 field, Coursera , 和 I was struck by 的 breadth 和 depth of options of 的ir free online courses. 的re are obviously 其他MOOC提供商 out 的re, but my search that day ended 的re.

实际上,它没有’t take me very long to fall in love with one of 的 Coursera offerings, a 元数据模块Jeffrey Pomerantz博士 北卡罗来纳大学教堂山分校信息与图书馆科学学院的院长(就像Pomerantz博士所说的那样!)。在过去的几年中,我遇到了北卡罗来纳大学,因为他们在数字化和数字策展领域所做的一些工作,所以我觉得与他们有联系–网络的古怪之处。另外,在使用元数据一段时间之后,我渴望回到基础知识,并重新研究在处理特定数据集和模式时可能已经忘记的所有理论和概念模型,以便对该主题有一个新的了解。甚至可以做一些XML编码– happy days!

So, without thinking too much about it I set out to enroll on 的 Metadata: Organising 和 发现ing Information 课程(Twitter上的#MetadataMOOC)。对我来说不幸的是,该课程已经在三周前开始。尽管如此,MOOC模型的性质使我可以在以后的阶段入学,而对我的学习没有任何实际的损害,除了我无法按时提交以前的作业并获得正式认可的事实。但是我没有 ’介意这方面,因为我觉得我的主要目标是学习而不是获得积分。签约过程让我感到最轻松,这与我们因其用户友好性而广受赞誉的那些在线产品类似。一分钟后,我创建了Coursera帐户,并订阅了一个很棒的课程。

我立即进入结构良好的学术模块的深层。视频课程整齐地组织成有序的分层树状结构,只有到目前为止所完成的课程在页面上可见,因此,围绕未来课程的神秘感仍然存在。课程’标题只是我耳中的音乐:叙词表,Dublin Core,LCSH,HTML,DTD,CDWA Lite等。此外,工作台左侧还包含一些值得探索的有趣链接:公告,下载,作业,Sillabus甚至是更具吸引力的论坛等论坛。甚至有一个 Mapping 的 Metadata MOOC link, where pins had been dropped on a Google Map to show 的 location of all course participants – thousands from what I could see, 和 literally from all over 的 world. This was getting exciting by 的 minute.

在顺利,友好地进行注册过程后,我直接看了第一节课的入门视频。即使我的Mac使用HTML5,并且页面上仍弹出一条消息,提示我应切换至Flash,该视频仍可正常播放,并且过程开始了。 Pomerantz博士首先表示欢迎和警告:这将是面向所有初学者的课程,非常适合对元数据了解甚少的人。起初,这让我很不满意。然而,从课程表的角度看,课程似乎是如此全面,并从课程中判断’标题非常详细,以至于我并没有因此而退缩,因此决定继续前进。 MOOC经验的学术风味现在开始使我的味蕾发痒。就像回到大学一样,但是无需支付费用,这真是奇怪!

的 introduction was quickly followed by a couple of brief lessons engineered around 的 idea of finding examples of 元数据 use in our daily lives: phone 元数据 和 的 NSA元数据收集丑闻 (metadata *is* data), 的 new tagging feature of 的 latest Apple operating system Maverick, all tangible examples of 元数据 in action around us.

这些课程继续讲解什么是元数据(关于任何人的数据的数据?),其中包含一些非常真实的语句,例如:
“…this course is about something that's difficult 和 maybe impossible to pin down. In Information Science we study all of 的se weird subjective phenomena - no gravity, or electromagnetism, no well-behaved physical phenomena for us 这里 in Information Science.”

的 course 的n continued on to explore Dublin Core - 的re’是专用于它的整个单元-加上用于生成各种数字对象元数据的一整套元数据模式和受控词汇表。


This is how much of 的 course I have explored so far, 和 I have to say I am very impressed by it. 的 homework in 的 form of multiple-choice questions peppered with more practical exercises is very meaningful 和 的 lessons are enriched by links, recommended readings 和 interviews with inspiring practitioners in 的 field of 元数据 和 digital preservation.

特别要提到的是,我对历史学家和档案保管员,或者是自由放养的档案保管员进行了很好的采访(是的!) 斯科特·杰森 (@textfiles) of 的 brilliant 存档团队和的 even more brilliant archive.org. In a very insightful conversation with Pomerantz, Jason pointed out that through initiatives such as 的 Internet 封存 computer history has changed forever. It is thanks to 的 dedication of various teams of professionals, but also of many amateur (read: nerd) collectors of all times out 的re, that an extensive library of videos, music, books, magazines 和 even 软件 is now made freely accessible to everyone on 的 internet.

如果我们希望保留计算技术的当前和最近的历史,同时又确保将来能够访问不断产生的元数据,那么这样的努力就非常重要。面对如此广泛的数字保存任务,我们只能尽最大努力从遗忘,过时和数据损坏中保存尽可能多的内容,而不会落入这样的幻想:我们可以存档和保存以前创建的所有内容。数字世界。最终,在斯科特’s words, ‘生活是有损的,不是无损的协议’。保留我们可以的,但保留一切将仅仅是乌托邦。

截屏来自Jeffrey Pomerantz博士的MOOC
有关该库MOOC的更多信息:

Metadata MOOC in 的 news 由Jeffrey Pomerantz博士在他的博客上发表
两个MOOC的故事 Steven Chang在Infoseer上发表
MOOC和图书馆 by Abby Clobridge on Against 的 Grain