项目来源:双胞胎

2012年,威廉·帕克和他的同事们去打猎,一个数据集,追踪50000多精心种植的增长白云杉树十多年,1500公里的范围内。他们发现计算机磁带卷,一个相对现代的3.5英寸软盘和一盒老的5.25英寸的软盘。这些包含数据从田间试验在1970年代末,是建立商业木材的提高产量。帕克,在安大略省瀑布森林研究所的圣玛丽,加拿大,需要评估策略等方式协助迁移的可能保护森林在一个日益变暖的星球,这只是长期系统的研究,他说。“当我们发现它时,它就像,“尤里卡!阿利路亚!我们终于明白了!’。”

没有那么快。帕克启动一台旧电脑,但它可能不是最新的磁盘读取。甚至没有人设备。

帕克的IT服务数据检索公司提到他。旧的磁盘是抛式,双面磁盘写几个驱动器可以阅读的格式。专家最终能够仔细阅读使用打孔机,一些数字取证和一些编程转换古代现代电子表格软件。

帕克的经验封装了许多研究人员遇到的问题。检索信息已不存在的数据存储媒体就像打开一系列的笼子,伯特伦里昂说,威斯康辛州麦迪逊市的一个档案管理员AVPreserve。“科学家们被困在旧格式的信息。一些是物理上的障碍,一些是编码结构。这两个可以过时了。”

科学家们希望把数据从旧媒体首先需要找到一个可以读取它的设备和连接到现代计算机(见“旧媒体”)。但文件转移到现代媒体只是第一步;第二是理解它的内容,这就需要另一套工具。

将现代

当涉及到旧的硬件,一个良好的开端可能是当地的图书馆。记忆实验室在华盛顿的公共图书馆提供了一个diy站,允许人们将3.5英寸磁盘到现代格式,例如,和斯坦福大学图书馆为5.25英寸磁盘提供了类似的资源。主任海港麦卡锡在澳大利亚墨尔本大学eScholarship研究中心,拥有他所谓的“冗余技术的博物馆”,可以处理各种格式。“如果你有磁带,磁盘,不管它能适应,我们有插头,”他说。

几美元/磁盘,转换服务公司,如FloppyDisk森林湖,加利福尼亚州,在卡里RetroFloppy,北卡罗来纳州,可以提供帮助。所以也可以数据恢复服务,专注于损坏的媒体。DriveSavers数据恢复公司总部设在诺瓦托,加利福尼亚州,有大约20000个存储设备,最古老的是Shugart st - 506从1980年硬盘驱动器。帕克CBL使用数据恢复在多伦多,安大略省与穆勒媒体服务分包(现在乔治血液音频在纽约,纽约),恢复他的数据和支付了约3000美元。

成功依赖于媒体和它是如何存储的脆弱性。5.25英寸软盘的时候很容易被油和压力,和艾美加邮编磁盘是不稳定的。但它不只是“bitrot”,或损坏媒体本身,使得传统媒体不可读麦卡锡说。“机器的数量和零件脱落非常迅速。具有讽刺意味的是,“纸是更稳定。

机器的数量和零件脱落非常迅速。

那些旧的驱动器和电缆可能会建立自己的自己动手,却发现新电脑不再包含董事会和接口应连接。一些旧的Zip驱动器,例如,插入一个“平行”(打印机)端口——一个接口,今天已经基本消失了。但也有一系列的适配器,主要由档案员和游戏爱好者使用,可以帮助。顶端是KryoFlux设备,开发的软件保护社会,可以通过USB接口传输软盘数据。KryoFlux保存在梅德斯通科技集团,英国私人用户约100美元的硬件费用。

现代计算机上的操作系统也可能无法读取旧格式的文件。Lori爱默生、媒体考古学实验室主任科罗拉多大学博尔德说,帮助当地的一个科学博物馆恢复一个神秘的磁盘上一个Zip文件取决于找到合适的计算机(麦金塔8100年从1994年运行OS 7)来读取文件,这是一个旧版本的库引用管理器尾注。

圭多泡利,药用化学家在芝加哥伊利诺伊大学,表明,最好的防御衰变数据保持电流。泡利维护NAPRALERT数据库,可以让研究人员寻找天然产物(如植物提取物)和生物活性。开始在索引卡片上由圭多的博士顾问和已经穿过磁带和各种磁盘格式,在云中,现在硬盘两个大洲。“我有一些旧的媒体,但我不依赖阅读它们,“泡利说。

深入数据

恢复旧数据的下一个挑战是使数据文件本身。对数字档案,保存的第一步是获取磁盘映像,出现复制所有的数字数据在设备上,包括覆盖和隐藏文件。数字取证技术的职权范围,但商业执照等工具可以花费数千美元。加上,关注法律应用程序,他们忽视某些功能重要的档案,如修订敏感信息。

这使得档案创建BitCurator,一个开源的“虚拟机”,图片一个磁盘和指导人们通过第一步解释其内容,如检测这些比特和字节是如何格式化为可读的文件,例如,Windows NT操作系统,Linux或DOS。越晦涩的格式,这是越困难。

创始人克里斯•穆勒穆勒媒体,写软件解锁古老的文件,但是人类有时是更有价值的线索,他说。穆勒问客户的电子邮件的照片原始媒体早在一个潜在的项目。有时几个波浪线从一个狡猾的人,是没有意义的,他的客户是字母或数字,让穆勒推导出格式和软件可能被使用。

下一步是访问文件,克里斯托弗·李解释说在学校的信息和图书馆学在北卡罗莱纳大学教堂山分校,BitCurator背后的主要力量之一。文件可能无法分辨的格式,因此很难知道程序可能会打开它,他说。“软件通常是障碍。“研究人员可以利用计算机程序被称为十六进制编辑器显示这些文件的原始二进制内容。幸运的是,这可能揭示什么软件写在一个文件,或者直接允许提取有用的数据。BitCurator也与美国国家标准与技术研究院软件参考图书馆尝试匹配文件的软件。

有一些线索,研究人员通常可以确定现代程序打开文件类似,旧的软件,将其转换成新的格式。另一个,假设原软件可用,是模拟:重建旧的操作系统平台在现代机器。例如,互联网档案馆等平台模拟器ms - dos,可以运行在一个互联网浏览器。仿真更经济划算,这是当软件设置为非常具体的任务或视觉效果图,不能很容易地迁移到当代格式,计算机科学研究所的克劳斯Rechert说在德国弗莱堡大学的。他最近建立了一个仿真器从自然语言再现分析研究了定制语言地图在排版程序乳胶。

另一种选择是“数字考古”,编写软件使旧文件的可解性。但这条路是昂贵的,往往徒劳的,通常需要一个合理的文件包含的想法。在一个相对简单的示例中,大卫·施密特在RetroFloppy寻找组重复编码对应字母以客户的名义起草一个转换矩阵和恢复数据从一个名不见经传的IBM系统存储在一个8英寸软盘。乔治血液和AVPreserve等公司专门从事更复杂的版本的这些问题。

最大的障碍是有时不是技术而是人类,数字档案员说。提取一个文件是不够的只是学习它有6列,100000行;研究者需要知道这些数字的意思。档案由艾米Pienta校际联盟的政治和社会研究安阿伯市密歇根,例如,买了翻新卡片读者检索数据从一个大,纵向研究从1950年代退休。但在物理拳被转换为ASCII数字代码,他们需要保存密码本知道这些数字称为——做了代码' 1 '的意思是是或否?

帕克的故事有一个有趣的结尾:组的平均数字数据只包含值树,但幸运电话透露,纸质记录与测量个人的树木已被保存。他花了几小时的车程,以满足最初的科学家和收集数据表。

墨尔本麦卡锡说,“如果你想保留一些东西,你必须移动而人们还。”