2013年12月8日

Google / OpenRefine用于元数据清理和链接数据

上周五,我参加了一个半天的研讨会 ria., 这提供了鸟瞰图导致Googlerefine。早上会议开始在数据库的历史/复杂性/限制的45分钟内接受了45分钟的回顾。其余的时间都花在了open refine。

googleerefine(现在OpenRefine)是一个独立的开源桌面,用于数据清理和转换。它将其自身显示为平台,但表现得像关系数据库。它’一个强大的强大工具,需要一些腿部和练习来充分利用其潜力。

该软件的直接和非常实际使用包括有效清理杂乱元数据的能力。假设您有一个具有一些半结构化数据的文本文件的导出;您可以使用转换,方框和群集来编辑它来重新构建数据。

截图“categories” for sample data-set
http://data.freeyourmetadata.org/powerhouse-museum/phm-collection.zip


















googlerefine还可用于将数据值转换为其他格式并将其扩展为web服务,例如 地理编码 地址为 地理坐标.

查看 http://collection.cooperhewitt.org/people/18060335/ 作为链接元数据(人搜索)的一个很好的例子。

资源:
openRefine. (Project homepage)
openRefine.入门
使用OpenRefine:手册

3评论:

  1. Hi Alexander, I came across a post on the Programming Historian site today which covers a lot of the material from the workshop: http://programminghistorian.org/lessons/cleaning-data-with-openrefine

    回复删除
  2. 优秀的东西,泳梯。欢呼:-)

    回复删除
  3. 好好写亚历山大。我遇到了一个有用的正则表达式列表"recipes"上周在Google Free your Google游戏时在Github上:
    //github.com/OpenRefine/OpenRefine/wiki/Recipes

    约翰

    回复删除