2012年5月3日

数字化遗留论文

那里有不少图书馆以类似的精装本格式保存这些论文。在许多情况下,学生可以在图书馆中使用它们以仅供参考。在整个学年中,需求各不相同,但在最后一年的学生从事其项目时,这种需求往往达到顶峰。半空的架子和对这个或那个论文的下落的狂热询问是典型的讲故事的迹象。

有充分的理由摆脱硬拷贝,并用数字化版本代替它们。
  • 在图书馆书架上创建空间
  • 消除了丢失或可能无法替代的论文的事件
  • 通过在线存档启用安全和永久访问
  • 促进多用户访问(可以满足不断变化的需求)
  • 电子主题可以更轻松地检索(全文搜索,可通过OPAC /在线档案访问)
  • 抄袭风险大大降低(所有作品变得透明且可追溯)
  • 减少货架负荷(节省员工时间)
  • 减少了年度盘点工作量(更少的东西可算)

但是也有风险。过去的学生仍然拥有其作品的版权。可以说,追逐那些学生让他们分享他们的版权(例如,通过知识共享许可)是不切实际的。因此,提供对已归档作品的公共,全文开放访问可能会成为问题。解决方案是将访问限制在园区IP范围内。从转换过程的角度来看,只有那些足够健壮以承受手动处理的文件才能被处理。因此,毕竟仍然可能残留在架子上。

I’d想强调一下’快速实现转换项目的工作流程没有对有错。当地条件,如资金,可用设备,时间等,均应发挥作用。下面简要概述了如何使用我可用的工具进行这项工作(最近发布并正在进行)。

可用设备:
  • 富士通FI-6140多页高速扫描仪
  • Adobe Acrobat Pro 9(不是Adobe的OCR的理想选择’OCR校正功能充其量是狡猾的; 艾比 是国王)
涉及的步骤(高级概述):
  1. 拆卸并准备要扫描的原始文档
  2. 以300dpi扫描(通用捕获图)
  3. 插入版权免责声明
  4. 调整图像尺寸(裁剪图像等)
  5. 保留未压缩/无损的.PDF主文件
  6. 优化文件大小
  7. 转换为PDF / A-1b
  8. 在存储库中发布项目
  9. 清理保存在图书馆管理系统中的现有目录记录,并嵌入指向已归档项目的全文链接
关于OCR的说明...
一个目标是尽可能实现全文索引。但是,’必须强调的是,OCRing的目的是具有查找/搜索功能,而不是原始来源的真实复制品。 OCR几乎不了解布局,格式,字-行-段落结构等。

关于PDF / A-1b的注释...
PDF / A标准定义了在不同平台上以PDF格式长期存档电子文档的规定。 PDF / A文件中的所有内容必须以一种可以长时间可靠地查看或打印文件的方式包含。 PDF / A-1b要求将显示或打印文档所需的所有页面内容和资源都包含在PDF文件中。不需要页面内容的结构化。建议在没有内容的情况下使用PDF / A-1b,例如在没有结构信息的情况下创建的扫描文档或PDF中。

从头到尾处理论文需要多长时间?同样,这取决于各种变量,包括源文档的条件,扫描仪速度,OCR速度等。我对转换过程的每个步骤都进行了细分并确定了时间。平均约55–每篇论文80页,每篇论文大约需要45分钟(给予或接受)。

显然,这里的底线是,在将旧论文从模拟转换为数字时涉及一些输入。但是,潜在的好处不仅仅可以证明所付出的努力是合理的。

0 comments:

发表评论