2012年2月17日

元数据的价值

最近几天,我遇到了两个不同的示例,这些示例说明了正确获取元数据以使数字内容易于查找和发现的重要性。

现在,越来越多的作者在机构知识库中归档他们的研究。从理论上讲,开放访问的“绿色路线”使研究更加明显,但是在实践中,这很大程度上取决于Google如何索引给定IR的内容。作者 最近在图书馆高科技杂志上发表的一篇论文 (1) 建议IR通常使用较低的索引比率,因为它们使用Dublin Core元素集而不是Google Scholar建议的元数据架构。 Artlisch&奥布赖恩(O'Brien)辩称,都柏林核心大学(Dublin Core)无法充分表达书目引用信息,并发现在按照GS建议对犹他大学IR的论文子集的元数据进行转换之后,索引率提高到90%以上。 

元数据的价值可以在最近的不同背景下看到 尼尔森白皮书 (2)。尼尔森是一家商业公司,销售一种产品-增强的书本数据-显然具有既得利益,但是该论文的确提供了一些有关元数据和销售之间联系的有趣数据。确保内容易于查找不仅与研究影响和引用有关。尼尔森(Nielsen)提出的证据表明,在元数据和图书销售之间的联系上,更多肯定是更多。 2011年排名前10万的图书具有完整的BIC基本要素,包括封面图像(最关键的要素之一),通常其平均销售额要高于没有封面的书籍。此外,添加增强的描述性元素,例如长和简短的描述,作者传记和评论(可通过Nielsen的Bookdata Enhanced服务获得),也带来了销售量的增长:订阅了公司增强型元数据服务的发行商的销量同比增长了11% ,在这一类别的65家发布商中,有44家的销量实现了正增长。相比之下,整体市场下降了2.7%(显然,相关性不一定等于因果关系!)。

因此,不仅是图书馆员对元数据感兴趣,而且最终还会发布CEO和他们的会计师。


(1)Kenning Arlitsch,Patrick Shawn OBrien,(2012年),“无形的机构知识库:解决Google中IR的低索引率问题
学者”,高科技图书馆,第30卷第1期:


(2)白皮书:元数据与销售之间的联系作者:发行人帐户管理负责人Andre Breedt&Nielsen研究与开发分析师David Walter。 2012年1月25日。


3条评论:

  1. 关于都柏林核心区,您说的很有意思。到目前为止,我已经对元数据标准和数字化进行了一些研究,大多数资料似乎都同意Dublin Core是最好的方案。很难发现它有局限性,还有一些重大的缺陷,例如损害索引编制能力。尽管这似乎主要是引文和学术论文(以及Google学术搜索索引)的问题,但要记住这一点。感谢这篇文章,以及所有其他文章,这个博客很棒:)
    贾达

    回复删除
  2. 谢谢Giada :) Dublin Core确实也有很多优点,因为它很简单并且元素是可选的和可重复的,并且您可以自动化使用现有HTML元数据生成DC的过程(尽管我距离专家还很远这与您的好自我不同:)),我同意Google学术搜索为内容编制索引的方式可能是更大的问题,但是我可以'不会很快看到这种根本性的改变。

    就研究影响和可见度而言,SEO无疑是一个非常有趣的领域。

    回复删除
  3. 只是通过JISC存储库LISTSERV上消息灵通的人(即Tim Brody)对此进行更新。似乎,一旦内容完全开放,大多数IR平台都会被Google Scholar索引,并且只有在实施不良的情况下才证明软件是困难的。也就是说,GS确实有一个政策是首先链接到文章的发布者版本,而不是链接到已存档的版本(如果两者都存在)。
    More info via //www.jiscmail.ac.uk/cgi-bin/webadmin?A2=ind1202&L=jisc-repositories&D=0&P=21886

    回复删除