2011.8.24 html-2011/adatallomany-mentese.htm C.11014
levélváltás Pócs Ádámmal
2011.8.24.
Tegnap délelőtt a Széchényi Könyvtárban, az Elektronikus
Könyvtár atyjánál. Egy tea mellett beszélgettünk, hosszasan. A múlt hónapban
ugyanis programot fejlesztettek, amihez hozzá kellett igazítani a honlapomat. De
mi lesz harminc év múlva. Nekik ugyanez a gondjuk. Már nem mindent tudnak
olvasni.
(Még azon derültünk, több honlapot nem fognak befogadni, okulva rajtam.)
Két ötletet vittem, segítenek továbbgondolni. Lebutítani a honlapot
alapprogramokra. Vagy/és csinálni egy adatkonzervet. Másfél lenne giga lenne
mindössze: opuszjegyzék, (kilenc táblázat, 601 ezer adat). Plusz a képek és az
írások egy-egy zsákba (folder) ömlesztve. (Ami ezen túl a honlapon van, minden
csak hab a krémestorta tetetjén.)
Hazafelé (szomszéd épület) a Nemzeti Galéria Adattár vezetője: táblázatokat
nekik netán papíron is. (Sokezer oldal, a tintasugaras nyomtatás nem időálló.)
Hű, ezt az egész bonyolultságot sikerült végül rövidre fogalmaznom. Pedig még
csak most csörög a vekker.
ölel: d
- - - - - - - - -
Nokérem.
Bele (de egyelőre nem végig-) gondolva a dolgokat, a következő állításokat igaznak tartom:
A
számítástechnika eddigi története során létrejött adatformátumok döntő
hányada az azt létrehozó program hiányának megléte mellett is még ma is
olvasható. Itt nem arról van szó, hogy az adattároló médium meghibásodása
miatt vissza lehet-e állítani egy rögzített adatot, hanem arra, hogy
maga a
formátum olvasható-e. Az előbbi problémára ugyanis már léteznek viszonylag
biztonságos megoldások (például elosztott adattárolás). Arra viszont eddig
nemigen láttam példát, hogy valamit azért ne lehetett volna
visszaolvasni,
mert maga a program, ami létrehozta azt, már nem létezik. Valahogy mindig van
megoldás. Még a régi ZX Spectrum 198x-ben felvett, magnókazettákon tárolt
programjai is visszaolvashatóak speciális alkalmazással.
Jelentősen
növeli azonban a visszafejtés idejét (és egyben csökkenti a bonyolultságát),
ha szöveges, és nem bináris formában tároljuk az adatokat, legalábbis
azokat, amiket lehet. A bináris állományok (adatbázisok, programok, Word- és
Excel-dokumentumok, PDF-ek) egyrészt
általában tömörítve vannak, másrészt ha
nem,
akkor is vissza kell valahogyan kódolni őket, ami adott esetben durva
munka. Ennél egyszerűbb, ha az ember tisztázza, hogy itt most ASCII-alapú
adatok jönnek, ez és ez a kódlap (a kódlapok pedig sztenderdek, van hozzájuk
visszafejtési tábla), ez a byte ezt a betűt jelenti, és kész. Nem hiszem,
hogy harminc év múlva ne lenne olyan algoritmus, aminek ha megmondjuk, hogy
melyik szám (byte, vagy byte-pár) melyik betűhöz tartozik, akkor ne lenne
képes előállítani abból a szöveget.
a JPG olyan fokon leterjedt,hogy a
Ha megvan a
szöveg, azt egy jól megírt programmal már újra a keresésre és az adatok
alapján létrehozott adatbázisra alkalmassá lehet tenni. Ennélfogva – és a
bináris állományok mellőzése miatt is – felesleges adatbázisban tárolni.
Maga a HTML-formátum eleve tartalmazza az adatokat és a struktúrát
egyaránt, ezt feldolgozni valószínűleg harminc év múlva sem lesz nehéz
feladat.
Mindez nem igaz természetesen a képekre. Azoknak mindenképp bináris állományoknak kell maradniuk. Hogy milyen formátumban, hát, őszintén szólva szerintem a JPG egy ideíg még meghatározó állománytípus lesz, és a múltját tekintve tett akkora elismertségre szert (és tárolnak annyian e formátumban képeket a világon) pár évtizeddel később a tiéd ne egyedi probléma legyen, vagyis valószínűleg lesz konverter, ami az akkor népszerű/megfelelő képformátumra alakít majd JPG-t.
Mindent összevetve: HTML az adatokra és JPG a képekre, ez a javaslatom.
Á.
- - - - -
továbbá:
A táblázatról:
Nem azt mondtam, hogy ne nyúlj bele, hanem azt, hogy amit meg akarsz őrizni, azt mentsd el szöveges formátumban is. (Az Excel XLS-fájltípusa bináris állomány, a HTML viszont szöveges formátum.) Ez azt jelenti, hogy nyugodtan módosítgass bármit az Excelben, csak mondjuk minden héten egyszer mentsd el szöveges formátumban is őket. De a változtatásokat ne a szövegesben végezd el, hanem az eredeti Excel fájlban, és utána mentsd el azt szövegesként.
Most jutott eszembe, hogy a HTML-formátumnál még jobb, ha XML-formátumban mented el. Ez a Mentés másként... menüpontból az Excel 2004 XML (valami) néven jelenik meg.
Ezeket az elmentett HTML vagy XML fájlokat aztán már nem kell megnyitni, ezek archiválási célra készülnek.
- - - -
Ja, ha te már
2007-es Office-t használsz, az más. :)
Az XLSX-formátumról annyit érdemes tudni, hogy az egy zömörített (ZIP) állomány,
ennélfogva bináris, melyben viszont már valóban szöveges, jórészt XML fájlok
vannak. Tekintve azonban, hogy a ZIP igen elterjedt és nagy múltra visszatekintő
formátum, nem valószínű, hogy a következő 10-20 évben ne támogatná valami. Így
szerintem maradhat ebben.