Benutzer-Werkzeuge

Webseiten-Werkzeuge


analyse_aufbereitung_dateiablage

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

analyse_aufbereitung_dateiablage [2023/07/10 16:06] (aktuell)
johannes.hafner angelegt
Zeile 1: Zeile 1:
 +====== Analyse und Aufbereitung kreativer Dateiablage ======
 +Privatnachlass einer Schriftstellerin, welcher 99 Disketten und einen USB-Stick beinhaltet. Dateien von Diskette und USB-Stick wurden auf das Netzlaufwerk des Archivs übernommen. Die Ablieferung umfasste 643 Dateien (~92 MB). Der kreativen Ablage fehlt eine durchgängige Ordnungsstruktur.
 +
 +==== Analyse: Datenstruktur ====
 +Eine erste Analyse mit der Software [[https://windirstat.net/|WinDirStat]] zeigte:
 +* Die Mehrheit der Dateien hat als Dateiendung ''%%.doc%%'' und ''%%.txt%%''
 +* Einige Suffix weisen Fehler aus, z. B. ''%%.doc kurzgeschichten%%''
 +* Es sind Systemdateien vorhanden, z. B. ''%%.dat%%''
 +* Es sind unbekannte Dateiformate vorhanden ''%%.SIK%%''
 +
 +==== Analyse: Duplikatssuche ====
 +Eine Analyse mit der Software [[https://dupeguru.voltaicideas.net/|dupeGuru]] zeigte 294 Duplikate.
 +
 +==== Analyse: Formatidentifikation ====
 +Eine Analyse mit der Software [[https://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/|DROID]] identifizierte SIK und TXT Dateien als Microsoft Word for MS-DOS Document 5.5 ([[https://www.nationalarchives.gov.uk/PRONOM/Format/proFormatSearch.aspx?status=detailReport&id=408&strPageToDisplay=summary|x-fmt/276]]) und meldete als Fehler, dass falsche Suffix verwendet werden. 
 +
 +==== Aufbereitung: SIK & TXT ====
 +Das Umbenennen der Suffixe war aufgrund Dateinamenskonflikten nicht möglich – pro Verzeichnis war jeweils eine SIK und TXT Datei mit demselben Dateinamen vorhanden. Weitere Recherchen im [[https://archive.org/details/59_Amstrad_PC_International_1990-01/page/n95/mode/2up?q=SIK|Internet Archive]] ergaben, dass es sich bei den SIK Dateien um eine *SI*cherheits*K*opie handelt, sprich um eine temporäre Datei. Inhaltlich waren zwischen den Dateien mal grösser (ganze Absätze) mal kleiner (einzelne Wörter) Unterschiede festzustellen. Beide Dateien wurden mittels der Software [[https://coptr.digipres.org/index.php/Antiword|Antiword]] ins PDF Dateiformat migriert.
 +
 +==== Aufbereitung: Kassation ====
 +Duplikate, leere Verzeichnisse und Systemdateien wurde mithilfe von dupeGuru und dem Linux Kommandozeilenprogramm  [[https://linux.die.net/man/1/find|find]] gelöscht.
 +
 +==== Aufbereitung: Bereinigung ===
 +Dateinamen, welche nicht zulässige Zeichen enthielten, wurden mittels des Kommandozeilenprogramms [[https://coptr.digipres.org/index.php/Detox|detox]] bereinigt.
 +
 +==== Fazit ====
 +Die Ablage wies in mehreren Hinsichten Herausforderungen auf:  Fehlend Ordnungsstruktur, Duplikate, wobei unklar blieb, welches das "Dateioriginal" ist, unbekannte und ältere Dateiformate. Sowohl für Analyse und Aufbereitung wurde eine Fülle an verschiedener Software benötigt. Viele dieser Schritte hätten ausgelassen werden können, wenn bereits ein Teil-Vorlass akquiriert worden wäre resp. über Ablieferungsvereinbarungen bestehen und die bestandsbildende Stelle vorher beraten wird. Die Aufbereitung bestand in Massenänderungen, welche nicht dokumentiert wurden. Für das Bilden des SIP wurde docuteam Packer verwendet. Zu PDF migrierte Dokumente, wurden manuell im docuteam Packer mittels "Migrationsresultat anhängen" eingefügt. Eine definitive Bewertung und Erschliessung stehen noch aus.
 +
 +==== Kontakt ====
 +Gionathan Diani, Burgerbibliothek Bern, Tel. +41 31 320 33 69, E-Mail: <gionathan.diani@burgerbib.ch>, [[https://burgerbib.ch]]
  
/home/kostceco/public_html/kostwiki/data/pages/analyse_aufbereitung_dateiablage.txt · Zuletzt geändert: 2023/07/10 16:06 von johannes.hafner