Problemy długoterminowej archiwizacji zasobów cyfrowych na przykładzie projektu CREDO

pol Artykuł w języku polskim DOI: 10.14313/PAR_238/27

Piotr Pałka, Tomasz Śliwiński, wyślij Tomasz Traczyk Politechnika Warszawska, Instytut Automatyki i Informatyki Stosowanej

Pobierz Artykuł

Streszczenie

Długoterminowe przechowywanie zasobów cyfrowych jest poważnym problemem, który nie znalazł jeszcze ani dostatecznej uwagi ze strony przemysłu IT, ani powszechnie dostępnych rozwiązań. Zachowanie użyteczności zasobów przechowywanych w archiwum cyfrowym wymaga nie tylko niezawodnego składowania plików z danymi, ale także możliwości skutecznego wyszukania informacji, weryfikacji jej autentyczności oraz jej poprawnej interpretacji, zarówno w sensie technicznym (format danych itd.), jak i semantycznym (zrozumienie informacji w odpowiednim kontekście itp.). Artykuł omawia te problemy i przedstawia ich rozwiązania przyjęte w projekcie CREDO.

Słowa kluczowe

archiwizacja długoterminowa, archiwizacja zasobów cyfrowych, metadane, przechowywanie danych, repozytoria cyfrowe

Problems of Long-Term Archiving of Digital Resources on the Example of the CREDO Project

Abstract

Long-term archiving of digital resources is a serious problem that has not yet found sufficient attention from the IT industry, nor widely available solutions. Preservation of usability of stored resources in the digital archive requires not only reliable storage of data files, but also the possibility of efficient searching, as well as verification of data authenticity and its correct interpretation both in the technical (data format, etc.), and semantic sense (information understanding in an appropriate context, etc.). The paper discusses these problems and presents solutions adopted in the CREDO project.

Keywords

archiving of digital resources, data storage, digital repositories, long-term archiving, metadata

Bibliografia

  1. Apache Tika. http://tika.apache.org. Dostęp: 2020-09-02.
  2. ARMA international – Association of Records Managers and Administrators. https://www.arma.org/. Dostęp: 2020-07-15.
  3. National Archives and Records Administration (NARA). http://www.archives.gov/. Dostęp: 2020-00-29.
  4. Exchangeable image file format for digital still cameras: Exif version 2.3. http://www.cipa.jp/std/documents/e/DC-008-2012_E.pdf, 2012. Dostęp: 2020-08-11.
  5. DROID: file format identification tool. https://www.nationalarchives. gov.uk/information-management/manage-information/preserving-digital-records/droid/, 2013. Dostęp: 2020-08-11.
  6. IPTC photo metadata. http://www.iptc.org/site/Photo_Metadata/, 2014. Dostęp: 2020-08-11.
  7. ARMA International. Generally accepted recordkeeping principles. https://www.arma.org/page/principles. Dostęp: 2020-07-15.
  8. Consultative Committee for Space Data Systems. Reference model for an open archival information system (OAIS). Recommended practice. https://public.ccsds.org/pubs/650x0m2.pdf, June 2012. Dostęp: 2020-08-11.
  9. Dublin Core Metadata Initiative. http://dublincore.org/. Dostęp: 2020-08-11.
  10. Dublin Core Metadata Initiative. Dublin core metadata element set, version 1.1. http://dublincore.org/documents/dces, 2012. Dostęp: 2020-08-11.
  11. Filesystem in Userspace (FUSE). https://github.com/libfuse/libfuse. Dostęp: 2020-08-20.
  12. Ghosh P., Google’s Vint Cerf warns of ‘digital Dark Age’. http://www.bbc.com/news/science-environment-31450389, Luty 2015. BBC News. Dostęp: 2020-08-11.
  13. Huhnlein D., Korte U., Langer L., Wiesmaier A., A comprehensive reference architecture for trustworthy long-term archiving of sensitive data. 3rd International Conference on New Technologies, Mobility and Security, 2009, 1–5, IEEE, DOI: 10.1109/NTMS.2009.5384830.
  14. POSIX.1-2017. The Open Group Base Specifications Issue 7. http://pubs.opengroup.org/onlinepubs/9699919799, 2018. Dostęp: 2020-08-20.
  15. International Standard Organization. Space data and information transfer systems – audit and certification of trustworthy digital repositories ISO 16363:2012.
  16. Klein A., One billion drive hours and counting: Q1 2016 hard drive stats. http://www.backblaze.com/blog/hard-drive-reliability-stats-q1-2016. Dostęp: 2020-09-29.
  17. Lemieux V.L., Evaluating the use of blockchain in land transactions: An archival science perspective. “European Property Law Journal”, Vol. 6, No. 3, 2017, 392–440, DOI: 10.1515/eplj-2017-0019.
  18. Library of Congress. Metadata encoding & transmission standard. http://www.loc.gov/standards/mets. Dostęp: 2020-08-11.
  19. Library of Congress. PREMIS preservation metadata maintenance activity. http://www.loc.gov/standards/premis. Dostęp: 2020-09-29.
  20. Marasek K., Walczak J., Traczyk T., Płoszajski G., Kazmierski A., Koncepcja elektronicznego archiwum wieczystego. „Studia Informatica”, T. 30, Nr 2B, 2009, 275–307.
  21. MooseFS. http://moosefs.com. Dostęp: 2020-08-07. 
  22. Narodowe Centrum Badań i Rozwoju. Demonstrator+ Wsparcie badań naukowych i prac rozwojowych w skali demonstracyjnej. https://www.ncbr.gov.pl/programy/programy-krajowe/demonstrator-wsparcie-badan-naukowych-i-prac-rozwojowych-w-skali-demonstracyjnej. Dostęp: 2020-08-11.
  23. National Aeronautics and Space Administration. The Apollo 11 telemetry data recordings: A final report. https://www.nasa.gov/pdf/398311main_Apollo_11_Report.pdf. Dostęp: 2020-08-02.
  24. Pałka P., Śliwiński T., Traczyk T., Ogryczak W., Persistence management in digital document repository. Kozielski S. i in. (red.), Advanced Technologies for Data Mining and Knowledge Discovery: 12th International Conference BDAS, Ustroń, Poland, 2016, 668–682. Springer International Publishing, DOI: 10.1007/978-3-319-34099-9_52.
  25. Płoszajski G. (ed.), Standardy techniczne obiektów cyfrowych przy digitalizacji dziedzictwa kulturowego. Biblioteka Główna Politechniki Warszawskiej, Warszawa 2008.
  26. Teng C.-C., Mitchell J., Walker C., Swan A., Davila C., Howard D., Needham T., A medical image archive solution in the cloud. Software Engineering and Service Sciences (ICSESS), 2010 IEEE International Conference on, 2010, 431–434. IEEE, DOI: 10.1109/ICSESS.2010.5552343.
  27. Traczyk T., Ogryczak W., Pałka P., Śliwiński T., Digital Preservation: Putting It to Work, Vol. 700, Studies in Computational Intelligence. Springer International Publishing, 2017, DOI: 10.1007/978-3-319-51801-5.
  28. Wallace C., Pordesch U., Brandner R., Long-term archive service requirements. http://www.ietf.org/rfc/rfc4810.txt, March 2007. Dostęp: 2020-08-11.