2013年12月8日

Google / OpenRefine用于元数据清除和链接数据

上周五,我参加了为期半天的研讨会 放射免疫, 概述了GoogleRefine。上午的会议以45分钟的时间回顾数据库的历史/复杂性/局限性而开始。剩下的时间都花在了OpenRefine上。

GoogleRefine(现在称为OpenRefine)是用于数据清理和转换的独立开源桌面。它显示为平面表,但其行为类似于关系数据库。它’是一个非常强大的工具,需要一些脚步和练习才能充分发挥其潜力。

该软件的即时且非常实际的使用包括有效清除混乱的元数据的功能。假设您导出了带有一些半结构化数据的文本文件;您可以使用转换,构面和聚类对其进行编辑以重新构建数据。

屏幕截图“categories” for sample data-set
http://data.freeyourmetadata.org/powerhouse-museum/phm-collection.zip


















GoogleRefine还可以用于将数据值转换为其他格式,并通过网络服务进行扩展,例如 地理编码 地址到 地理坐标.

查看 http://collection.cooperhewitt.org/people/18060335/ 作为链接元数据(人员搜索)的一个很好的例子。

资源:
OpenRefine (项目主页)
OpenRefine入门
使用OpenRefine:手册

3条评论:

  1. Hi 亚历克斯ander, I came across a post on the Programming Historian site today which covers a lot of the material from the workshop: http://programminghistorian.org/lessons/cleaning-data-with-openrefine

    回复删除
  2. 很棒的东西,Padraic。欢呼声:-)

    回复删除
  3. 很好,写亚历山大。我遇到了一个有用的正则表达式清单"recipes"上周在google上玩耍时在github上:
    //github.com/OpenRefine/OpenRefine/wiki/Recipes

    约翰

    回复删除