Kliknite na logo a navštívte stránky Spojenej školy sv. Vincenta de Paul v Bratislave-Ružinove. Spojená škola sv. Vincenta de Paul
(Bratislava-Ružinov, Slovensko / Slovakia) – Diskusné fórum / Návrat na homepage
 
 PomocPomoc   VyhľadávanieVyhľadávanie   Zoznam návštevníkovZoznam návštevníkov   Skupiny návštevníkovSkupiny návštevníkov   Zaregistruj maZaregistruj ma 
 Moje nastaveniaMoje nastavenia   Súkromné správySúkromné správy   Prihlás maPrihlás ma 

Manuscriptorium – digitalizácia historických fondov

 
Pridať novú tému   Zaslať odpoveď    Fórum vdp.sk -> Archív -> História (AUM)
Zobraziť predošlú tému :: Zobraziť ďalšiu tému  
Autor Príspevok
rVdP
robot fóra


Na fóre od: 24. 7. 2006
Príspevkov: 179
Bydlisko: Bachova 4
Reputácia: 283.9
Hlasovania: 1

PríspevokZaslané: utorok, 12. decembra 2006, 1:09    Téma: Manuscriptorium – digitalizácia historických fondov Odpovedať s citátom

Pozvánka od Jany Jelínkovej z Univerzitnej knižnice Bratislava:

V stredu, 13. decembra 2006 sa uskutoční v dopoludňajších hodinách v Univerzitnej knižnici Bratislava seminár na tému digitalizácia historických dokumentov a manuskriptov.

Registrácia je od 9:30, prednášky začínajú od 10:00 a budú trvať približne 60-120 minút, v prípade väčšieho záujmu aj dlhšie – ak bude veľa otázok.

Ďalšie podrobnosti nájdete na stránke infolib.sk a tiež na www.manuscriptorium.com (česká verzia je TU).

(K príbuznej iniciatíve digitalizácie novšej slovenskej klasickej literatúry pozri susednú tému diskusného fóra.)
Návrat hore
Ukáž informácie o autorovi Pošli súkromnú správu Pošli e-mail Ukáž webstránku autora
Alexander Avenarius
štamgast fóra
štamgast fóra


Na fóre od: 27. 5. 2006
Príspevkov: 122
Bydlisko: 15 min. od školy
Reputácia: 644.1
Hlasovania: 1

PríspevokZaslané: nedeľa, 17. decembra 2006, 22:29    Téma: Odpovedať s citátom

Zúčastnil som sa tohto podujatia. Prednášateľmi boli pracovníci firmy AiP Beroun, ktorá projekt Manuscriptorium technicky zabezpečuje: výkonný riaditeľ Ing. Stanislav Psohlavec a vedúci digitalizačného pracoviska Štěpán Černohorský.

Z hľadiska škôl bola zaujímavá informácia, že Ministerstvo školstva Českej republiky uzavrelo zmluvu so správcami internetového Manuscriptoria. Podľa dohody získali všetky české školy zadarmo prístup do Manuscriptoria. Žiaci môžu počas hodín dejepisu/histórie pomocou internetu nazerať priamo do zdigitalizovaných historických dokumentov, o ktorých sa učia na hodinách.

Skúsenosti však ukazujú, že učitelia a školy majú o využití Manuscriptoria celkom iné predstavy ako knihovníci a vedci.

Príkladom sú spisy s pôvabným názvom notoriká, čiže najznámejšie historické dokumenty. O zdigitalizovanie týchto najznámejších historických dokumentov a ich sprístupnenie na internete je medzi knihovníkmi a vedcami veľmi malý záujem, práve preto, lebo ich už všetci veľmi dobre poznajú. Naopak medzi školákmi a učiteľmi je najväčší záujem o notoriká, pretože práve o nich sa v školách vyučuje.

Ako povedal Ing. Psohlavec, bude veľmi náročné, aj časovo, prispôsobiť Manuscriptorium tak, aby vyhovovalo rovnako požiadavkám vedcov i učiteľov. Zatiaľ sú zo strany českého ministerstva školstva deklarované úmysly vytvárať vhodné cvičenia a učebné plány vyučovacích hodín dejepisu na základe digitálnej ponuky Manuscriptoria. Ide však o tak náročnú prácu, že nestačia deklarácie dobrých úmyslov: práca by si vyžadovala viacerých ľudí na plný úväzok. (Im samotným by teda už nezostal čas na vykonávanie povolania učiteľov dejepisu.)

Publikum položilo otázku, nakoľko presná je digitalizácia textu starých tlačív a manuskriptov pri využívaní softvéru OCR. Ing. Psohlavec odpovedal, že OCR programy sú užitočnou pomôckou, ale ak ide o digitalizáciu starých tlačovín, je vždy nevyhnutná aj dodatočná práca ľudského editora naskenovaných textov. Táto práca je pritom natoľko časovo náročná, že v podstate rovnako dlho by trvalo manuálne odpísanie daného textu z papiera na počítač.

Napriek tomu je OCR užitočný pre kontrolné účely: pri odpisovaní z papiera totiž človek často nedopatrením / únavou napríklad vynechá slovo, alebo aj celý riadok či odsek odpisovaného textu. Použitie OCR naopak garantuje, že zdigitalizovaný text bude kompletný. Pri digitalizovaní rukopisov sú rozpoznávacie schopnosti aj špecializovaného softvéru OCR žiaľ prakticky nulové.

V prílohe tohto príspevku posielam naskenovaný leták firmy AiP Beroun, v ktorom sú zhrnuté najpodstatnejšie informácie predstavujúce projekt Manuscriptorium.

Najvýkonnejší skener používaný firmou AiP Beroun na digitalizovanie najvzácnejších historických dokumentov, vrátane obrazov a máp, má rozlíšenie až 70 megapixelov. Jedna jediná snímka takéhoto dokumentu preto môže dosiahnuť ohromujúci rozsah až 1 a pol gigabajtu.

V súvislosti s ukladaním údajov preto zaznela aj otázka z obecenstva, aké je najvhodnejšie, najbezpečnejšie a najtrvácnejšie médium na ukladanie dát. Ing. Psohlavec odpovedal, že napriek odlišným názorom sa firma AiP Beroun naďalej pridržiava optických médií (CD, DVD), nie pevných diskov, ako najvhodnejšieho média. Sú však starostlivo vyberané len najkvalitnejšie šarže diskov a po zápise dát sú pravidelne a prísne kontrolované, či s časovým odstupom rokov a desaťročí nedochádza k poškodeniu uložených dát. Podľa slov Ing. Psohlavca životnosť údajov uložených na kvalitných CD sa ráta na niekoľko desaťročí, možno aj stoviek rokov.

Z textu letáku ma zaujala pasáž (moje zvýraznenia kurzívou):

citát:
Forma digitálních dokumentů

Forma, v níž jsou pořizována data a vytvářeny digitální dokumenty, je nadčasová a využívá výsledků evropského projektu MASTER. Je nezávislá na konkrétních programech díky využití technologie XML. Veškeré informace o struktuře dokumentů jsou otevřené a volně dostupné.

Produkovaný digitální dokument lze prohlížet každým WWW-prohlížečem nebo jej lze importovat do jiných programů a systémů.

Toto sa mi zdá veľmi dôležité, pretože otázka štandardnosti výsledných webstránok býva pri digitalizačných projektoch na Slovensku väčšinou podceňovaná a zanedbávaná.

Zdôraznená bola tiež potreba zabezpečenia podrobných bibliografických údajov a odborného popisu ku každému zdigitalizovanému dokumentu. Znova ide o oblasť, ktorá je pri publikovaní digitálnych textov na internete často celkom ignorovaná.

=-=-=-=-=-=-=-=-=-=-=-=-=

Osobne som položil v diskusii otázku k publikovaniu plných textov zdigitalizovaných historických diel. Aj počas prezentácie Manuscriptoria na seminári totiž obecenstvo mohlo vidieť, že keď je historický dokument prepisovaný do digitálneho textu a zverejňovaný na internete, často pritom dochádza ku (podľa môjho názoru neopodstatneným) zásahom do formy textu.

Ako príklad (nesúvisiaci priamo s Manuscriptoriom) som uviedol diela Jana Amosa Komenského (1592–1670). Keď si pozriete naskenované originály jeho kníh, zistíte, že niektoré pasáže v rámci textu sú zvýraznené väčším písmom, alebo tlačou kurzívou či tučným písmom, alebo ľubovoľnou kombináciou uvedených zvýraznení. Navyše je často v texte využívané písanie Niektorých Slov Veľkým začiatočným Písmenom. A to nie systematicky ako v nemčine, kde sa veľkým začiatočným písmenom začínajú všetky podstatné mená.

Nie, u Komenského a iných starých autorov išlo pri písaní určitých slov Veľkým Začiatočným Písmenom o spôsob Zvýraznenia Dôležitosti niektorých slov.

Problém je v tom, že z dnešných vydaní diel starých autorov bývajú všetky tieto nuansy odstraňované. Text plynie jednotvárne malými písmenami od začiatku až do konca (okrem začiatkov viet); v texte už nenájdete žiadne zvýraznenia tučným písmom ani kurzívou, nehovoriac o rozdielnej veľkosti fontu v závislosti od toho, aká dôležitá je určitá pasáž alebo veta.

Dá sa považovať za chybu a nedostatok, že rozlíšenia prítomné v pôvodných vydaniach nie sú zachovávané v dnešných vydaniach. Obzvlášť sa to zdá poľutovaniahodné pri ambicióznych internetových projektoch typu Manuscriptoria, ktoré majú slúžiť obciam vedcov, učiteľov a študentov. Filologická presnosť a spoľahlivosť by pri takýchto projektoch mala byť jednou z priorít.

Zvýraznenia textov v pôvodných vydaniach totiž nie sú náhodné a bezvýznamné. Naopak, tvoria dôležitú zložku významu pôvodného textu. Ak my v dnešných vydaniach ignorujeme zvýraznenia textu obsiahnuté v pôvodných vydaniach, ochudobňujeme tým pôvodné dielo, v konečnom dôsledku redukujeme jeho obsah a sťažujeme porozumenie textu potenciálnym čitateľom.

Reakcia Ing. Psohlavca bola taká, že aj v ich podniku často na danú tému prebiehajú diskusie. Zatiaľ však je situácia taká, aká je: nie všetky rozlíšenia a zvýraznenia z pôvodných vydaní textov sú rešpektované v plnom texte zdigitalizovaných diel. Je tu však aspoň snaha o dôsledné transliterovanie pôvodných textov. Žiaľ, veľké začiatočné písmená sú aj v Manuscriptoriu (z neznámych príčin) menené na malé písmená (s výnimkou začiatkov viet).

Ing. Psohlavec vidí potenciál plných textov najmä vo funkcii zdroja pre fulltextové vyhľadávanie v rámci fondu starých textov. Mnohí čitatelia by však určite uvítali, ak by plné texty predstavovali aj digitálne vernú reprezentáciu textu pôvodného vydania: aby čitatelia vôbec nemuseli siahať po naskenovaných obrázkoch pôvodného vydania, ak si chcú na počítači prečítať a plnohodnotne preštudovať staršie texty.

Pokiaľ ide o zvýraznenia textu v pôvodných vydaniach, napríklad tučné písmo, kurzíva, zväčšený či zmenšený font a Veľké Začiatočné Písmeno, práve v ére HTML, XML a CSS je ťažko prijateľné v digitálnych edíciách starších textov ignorovať tieto a podobné rozlíšenia. V princípe je jednoduché – hoci ako všetko ostatné súvisiace s kvalitnou digitalizáciou, nepochybne časovo náročné – pomocou štýlov CSS príznaky tohto druhu z pôvodných papierových vydaní prenášať do moderných digitálnych edícií textov.

Takisto jednoduché je, vďaka využívaniu štandardov XML, spomínané príznaky z digitálnych textov neskôr odstrániť pre tých čitateľov, ktorí si prajú študovať texty bez zachovania pôvodných zvýraznení. Opačný smer už je zložitejší a časovo náročnejší. Ak už si dávame tú námahu, že niektoré dielo v rámci digitalizácie prenášame nielen do formy naskenovaných obrázkov, ale aj do formy plného textu, už prvá verzia digitalizovaného plného textu by mala vyhovovať najvyšším nárokom.

Na internete je dnes ľahko možné paralelne publikovať (dať čitateľovi na výber) textové verzie so zvýrazneniami i bez nich: čiže zmodernizované aj nezmodernizované, zjednodušené aj nezjednodušené textové verzie tých istých diel.

Ide teda o analógiu k tomu, čo Manuscriptorium už dnes ponúka v rovine naskenovaných obrázkov. Každý naskenovaný obrázok je totiž v Manuscriptoriu prístupný hneď v dvoch úrovniach kvality: Excellent a User.

Prvá úroveň obrázkov, Excellent, zachováva naskenované obrazy v nezmenšenej kvalite. Druhá úroveň obrázkov, User, naopak umožňuje rýchlu manipuláciu s naskenovanými obrázkami pre tých návštevníkov stránok, ktorí sa chcú iba rýchlo v naskenovanom dokumente zorientovať. Pri úrovni User teda ide o skomprimovanú, zníženú kvalitu pôvodných obrázkov.

Analogický postup môžeme uplatniť aj pri zverejňovaní plných textov zdigitalizovaných literárnych diel. Úroveň Excellent by bola takou úrovňou zdigitalizovaného textu, ktorá by 100% verne reprodukovala pôvodné papierové vydanie. Boli by teda dôsledne zachované všetky zvýraznenia textu z pôvodného vydania (čo sa dá na webových stránkach v princípe jednoducho docieliť pomocou štýlov CSS a formátovania XML Zvolanie ) a zakázané by boli akékoľvek úpravy pôvodnej formy textu. 100% verne by teda boli reprodukované pôvodný pravopis slov (každé písmeno) aj pôvodná interpunkcia.

Nemecký termín pre tento typ edície textu znie wort- und zeichengetreu. Týmto spôsobom boli v Nemecku v 90. rokoch 20. storočia vydané napríklad zobrané spisy Schopenhauera dokonca v knižnom, papierovom vydaní. Nie sú žiadne správy o tom, že by vydavateľstvo svoje editorské rozhodnutie oľutovalo či naň finančne doplatilo.

Podobne aj najvýznamnejšia knižná (papierová) edícia klasikov americkej literatúry, Library of America, sa pridržiava editorského princípu: žiadna úprava pravopisu (už vôbec nie lexiky, syntaxe či štylistiky) pôvodných diel, 100% dôsledné zachovanie pôvodnej interpunkcie. Žiadne modernizovanie ani zjednodušovanie textov Zvolanie O to bohatší môže byť sprievodný vysvetľujúci odborný komentár k pôvodným textom. Na komentovanie pôvodného textu je internetové prostredie hypertextu akoby stvorené. Anotované vydania literárnych textov budú užívateľsky oveľa príjemnejšie a celkovo užitočnejšie na webovej než na papierovej stránke.

Ak si napriek nevýhodám papierového média editorské postupy rešpektujúce pôvodné znenia textov môžu v dnešnej dobe dovoliť dokonca aj vydavatelia papierových edícií, tým skôr si ich môžu dovoliť vydavatelia digitálnych textov. Publikovanie textových verzií na úrovni Excellent, teda 100% verne v digitálnej podobe reprodukujúcej pôvodné edície, pre digitálnych vydavateľov neprináša žiadne finančné či iné riziká. Takisto nároky na úložný priestor pre dve verzie každého textu sú nepatrné v porovnaní s veľkým nárokom na úložný priestor potrebný pre naskenované obrázky v rovine Excellent.

Neexistuje teda dôvod odopierať čitateľom zdigitalizovaných diel textovú rovinu Excellent. Napriek tomu dnes drvivá väčšina digitálnych knižníc na internete ponúka čitateľom iba textovú rovinu User, teda viac či menej zdeformované verzie pôvodných literárnych diel a dokumentov.

Zatiaľ to, žiaľ, platí aj pre nový záslužný projekt denníka SME, Zlatý fond slovenskej literatúry na internete. Texty, ktoré dnes projekt ponúka, sú pravdepodobne všetky v rovine User. Taká je veľmi vhodná napríklad na fulltextové vyhľadávanie, ako spomenul Ing. Psohlavec. Avšak na seriózne štúdium, pre potreby vedeckej či univerzitnej komunity môžu vyhovovať iba digitálne verzie textov v rovine Excellent, t.j. 100% verne zachovávajúcej sémanticky či lingvisticky významné osobitosti textov z pôvodných papierových vydaní.

V prípade potreby a čitateľského záujmu je možné publikovať i tretiu (štvrtú, piatu...) verziu toho istého textu, ktorá by bola hybridná a stála by medzi oboma extrémami – dôslednou digitálnou reprodukciou originálu a dôsledne modernizovanou edíciou. Pri hybridných verziách by teda išlo o čiastočne modernizované, čiastočne zjednodušené textové verzie. Všetko by sa riadilo potrebami čitateľskej obce: o akú verziu konkrétneho diela je najväčší záujem. (O vôbec nezmodernizovanú, čiastočne zmodernizovanú alebo plne zmodernizovanú verziu. Pri významných dielach sa možno prejaví záujem dostatočného počtu čitateľov o všetky tri verzie.) Zopakujme, že pre seriózne vedecké štúdium môže vyhovovať len žiadnym spôsobom nezmodernizovaná ani nezjednodušená textová verzia.

Konverzie medzi textovými rovinami Excellent a User je v dnešnej ére XML a CSS možné do značnej miery zautomatizovať. Neexistuje dnes dôvod, aby digitálne knižnice naďalej upierali čitateľom voľbu kvality študovaného zdigitalizovaného textu.



AiP_Beroun.jpg
 Komentár:
Informačný leták firmy AiP Beroun o digitalizačných aktivitách v rámci internetového projektu Manuscriptorium – priekopníckej iniciatívy v európskom kontexte.
 Veľkosť:  258.71 KB
 Stiahnuté:  433-krát

AiP_Beroun.jpg



AiP_Beroun_2.jpg
 Komentár:
Druhá strana informačného letáku firmy AiP Beroun o internetovom projekte Manuscriptorium.
 Veľkosť:  276.03 KB
 Stiahnuté:  582-krát

AiP_Beroun_2.jpg



_________________
avenarius@vdp.sk
Návrat hore
Ukáž informácie o autorovi Pošli súkromnú správu Pošli e-mail Ukáž webstránku autora
Alexander Avenarius
štamgast fóra
štamgast fóra


Na fóre od: 27. 5. 2006
Príspevkov: 122
Bydlisko: 15 min. od školy
Reputácia: 644.1
Hlasovania: 1

PríspevokZaslané: pondelok, 18. decembra 2006, 17:19    Téma: Nevidiaci čitatelia Odpovedať s citátom

Práve mi bol pripomenutý aspekt, ktorý bol takisto diskutovaný počas stredajšieho seminára, ale neuviedol som ho v predošlom príspevku.

Ide o potreby nevidiacich čitateľov. Títo pri surfovaní po internete používajú screen readery, ktoré im dokážu reprodukovať akýkoľvek text na webstránkach – nie však obrázky.

To je ďalší silný argument pre to, aby digitálne knižnice zverejňovali nielen naskenované obrázky pôvodných vydaní literárnych textov či dokumentov, ale aby bol podľa možnosti ku každému naskenovanému staršiemu textu daný na internete k dispozícii aj prepis naskenovaného obrázku do plného textu.

A dostávame sa tým znova k otázke tak podrobne vyargumentovanej v predošlom príspevku: nevidiaci čitatelia sa môžu spoľahnúť len na kvalitu zdigitalizovaného diela v plnom texte. Neplatí teda pre nich argument, ktorý takisto zaznel v diskusii počas stredajšieho seminára: „Kto chce študovať staršie dielo či dokument v najvyššej kvalite, nech sa nespolieha na jeho prepis do plného textu, ale nech študuje naskenované obrázky.“

Nie všetci budú mať túto možnosť. (Ktorá je navyše zdĺhavá a otravná pre akéhokoľvek čitateľa.) Aj preto sa prihováram za maximálnu kvalitu plných textov literárnych diel, ktoré digitalizujeme pre internetové vydania. Naším cieľom by malo byť, aby zdigitalizovaný plný text 100% verne a vo všetkých sémanticky či jazykovo významných ohľadoch reprodukoval pôvodné papierové vydanie daného textu. Som presvedčený, že takáto 100% verná reprodukcia je v dnešnej dobe vďaka štandardom XML a CSS dosiahnuteľná. Nie je to žiadna nadľudská úloha.

Pravda, nie nadarmo sa XML a CSS nazývajú štandardmi. Štandardy treba dodržiavať, inak strácajú zmysel. Aj v súvislosti s nevidiacimi čitateľmi sa znova dostáva do popredia dôležitosť toho, aby každá webstránka, ktorú zverejňujeme, 100% zodpovedala štandardom XML a CSS, ako ich overuje napríklad validátor w3.org.

Len pri webstránkach, ktorých štandardnosť potvrdí validátor w3.org, si totiž môžeme byť istí, že si s nimi bez problémov poradia aj screen readery používané nevidiacimi čitateľmi.

_________________
avenarius@vdp.sk
Návrat hore
Ukáž informácie o autorovi Pošli súkromnú správu Pošli e-mail Ukáž webstránku autora
Zobraziť príspevky za predchádzajúce:   
Pridať novú tému   Zaslať odpoveď    Fórum vdp.sk -> Archív -> História (AUM) Časy sú uvádzané v GMT +2 hodiny
Strana 1 z 1

 
Prejdi na:  
Nemôžeš tu založiť novú tému
Nemôžeš do tohto fóra posielať odpovede
Nemôžeš tu upravovať svoje príspevky
Nemôžeš tu vymazať svoje príspevky
Nemôžeš v tomto fóre hlasovať
Môžeš zasielať prílohy
Môžeš sťahovať prílohy



SwiftBlue Theme created by BitByBit
Powered by phpBB 2.0.20 © 2001, 2006 phpBB Group
© 2006–2009 vincentdepaul.sk / Fórum založené 1. apríla 2006