Skopiowano ze stron roboczych projektu Wolne Podręczniki
Spis treści |
Proces przygotowywania lektury - jaki format bazowy?
Moje uwagi proszę czytać biorąc pod uwagę moje skrzywienie techniczne. Chciałbym nawiązać do pomysłów zawartych w notatkach ze spotkania 26 czerwca 2007 i zadać kluczowe pytanie co naszych celów.
Musimy mieć świadomość, że dokonanie obróbki tekstu lektury tak, aby mieć np. zachowaną strukturę rozdziałów i formatowanie oznacza w praktyce redakcję dokumentu na nowo.
Jak rozumiem, chcemy to zrobić wysiłkiem społeczności i do tego dajemy im proste narzędzie czyli wiki.
Wymagania
Powstaje pytanie, jaki będzie pierwotny format zapisu uwolnionej lektury. W zasadzie mamy dwa wymagania:
- prosta edycja (coś w stylu wiki)
- konwersja lektury do innych formatów (pdf, odt itp.)
Wiki jest rodzajem brudnopisu, i nie nadaje się do załatwiania sprawy formatowania. Częściowo tylko rozwiązuje kwestie semantyczne (podziały na sekcje itp.) i metadane. W zasadzie oba te wymagania są sprzeczne.
Zastosowanie jakiegoś XML'a pozwoliłoby na nieograniczoną możliwość edycji metadanych, niestety kosztem trudnej edycji. Poza tym budowanie schematu XML czyli definiowanie metadanych to jest trudność sama w sobie i nie mająca praktycznie końca.
Mamy taki przykładowy kawałek:
- — No, stary zbóju — pytał pan Borowicz spotkawszy Nogę na polu — jużeś wszystko wybił co do joty? Jest tam gdzie jeszcze jaka zajęczyna żywa?
- — Dużo nie ma, bo teraz to już wszyscy paprzą, ale się jeszcze trafi, Bogu dziękować. Na Józefowej górce jest ten stary zając, co go to pan zeszłego roku postrzelił w wątrobę.
Można sobie wyobrazić taki zapis:
<dialog>
<uczestnik postac="Noga" />
<uczestnik postac="Borowicz" />
<wypowiedz lang="pl_PL">
<mowi postac="Borowicz">No, stary zbóju</mowi> - pytał <ref postac="Borowicz">Borowicz</ref>
spotkawszy <ref postac="Noga">Nogę</ref> na polu -
<mowi postac="Borowicz">jużeś wszystko wybił co do joty?
Jest tam gdzie jeszcze jaka zajęczyna żywa?</mowi>
</wypowiedz>
<wypowiedz lang="pl_PL">
<mowi postac="Noga">Dużo nie ma, bo teraz to już wszyscy paprzą, ale się jeszcze trafi,
Bogu dziękować. Na Józefowej górce jest ten stary zając,
co go to pan zeszłego roku postrzelił w wątrobę.</mowi>
</wypowiedz>
</dialog>
Jest to przykład skrajny, ale wyobraźcie sobie, że kolejnym formatem wyjściowym będą audiobooki czytane przez syntezator mowy. Jeżeli słyszeliście kiedyś jakąś powieść w wydaniu radiowym, zauważycie, że inni aktorzy mówią za postacie a kto inny prowadzi narrację lub przynajmniej ton głosu jest inny.
Przydatne może być czasem oznaczanie fragmentów tekstów w różnych językach, prezentowanie alternatywnych/tłumaczonych wersji itp. Dla mnie Szekspir to głównie tłumaczenie Józefa Paszkowskiego czy Leona Ulricha, ale jednak to co zrobił Barańczak bedziej moim zdaniem nadaje się na współczesną scenę.
Na ile wolna lektura ma się nadawać do twórczej obróbki dla innych? Można sobie wyobrazić kolejne projekty zajmujące się stroną audio, inne zajmujące się tłumaczeniami - jeszcze inne katalogowaniem postaci itp. itd. Wspólny, bogaty format dla wszystkich mógłby być tu pomocny.
W obecnej postaci wiki taki dialog można co najwyżej wciąć:
:— No, stary zbóju — pytał pan Borowicz spotkawszy Nogę na polu — jużeś wszystko wybił co do joty? Jest tam gdzie jeszcze jaka zajęczyna żywa? :— Dużo nie ma, bo teraz to już wszyscy paprzą, ale się jeszcze trafi, Bogu dziękować. Na Józefowej górce jest ten stary zając, co go to pan zeszłego roku postrzelił w wątrobę.
Z czasem może obrosnąć do czegoś zbliżonego do:
{{Szablon:Dialog|postac1=Borowicz|postac2=Noga}}
:- {{Szablon:MowiPL|No, stary zbóju}} - pytał {{Szablon:Postać|n=Borowicz}}
spotkawszy {{Szablon:Postać|n=Noga|w=Nogę}} na polu
Możliwe rozwiązania
W zasadzie są dwa wyjścia:
- Budujemy bogate metadane
- Stosujemy format XML. Mamy do tego przyjazny edytor (np. popularny XMLmind z pluginami nadającymi "ludzki wygląd" dokumentowi podczas edycji). Na bieżąco możemy rozbudowywać schemę dokumentu (zawsze jakiś nowy element nas zaskoczy - nietypowa konstrukcja wiersza czy element graficzny). Równolegle tworzone są narzędzia formatujące i analizy semantycznej. Jest możliwość zbudowania ciekawej wyszukiwarki znaczeniowej. Ta ścieżka wymaga powstania zespołu dostarczającego i utrzymującego narzędzia oraz redaktorów schematów danych.
- Stosujemy format najbardziej zbliżony do czystego tekstu (na wiki)
- Bardzo łatwo jest edytować tekst. Bardziej złożone elementy (np. tabele czy umieszczanie ilustracji) nie są już tak proste i wymagają sporej nauki od redaktorów (ew. ich specjalizacji). Świadomie ograniczamy możliwości formatowania do minimum (mowa zależna tu już nie wchodzi moim zdaniem). Rozumiemy, że PDFy będą miały jakość zbliżoną do kiepskiego wydruku strony internetowej z przeglądarki. Rozszerzenie możliwości formatowania oznacza zmiany w kodzie MediaWiki. Trzeba pamiętać, że elementy graficzne są często istotnym fragmentem utworu. Na przykład Małego Księcia nie da się w pełni zapisać w zwykłym tekście. Wyszukiwanie to praktycznie tylko google i analiza tekstu po treści. Ważne jest, aby markup (znaczniki formatowania, tabel) nie przeszkadzał w wyszukiwaniu tekstowym. Wtedy jedynie opracowujemy narzędzie zamieniające wikitekst na formaty wyjściowe.
Przykład edycji XML
Ostatnio zacząłem używać XML do edycji tłumaczonych przeze mnie dokumentów RFC. Poniżej załączam przykład jak wyglądać może edycja dokumentu XML w odpowiednim narzędziu, jeżeli zostało one przygotowane do obsługi danego rodzaju dokumentu:
Można też edytować pliki na surowo:
Fragment edytowanego XML:
<section title="Opis wymagań" />
<t>W niniejszym dokumencie słowa określające znaczenie
poszczególnych wymagań są pisane wielkimi literami.</t>
<t>Stosowane są następujące określenia:</t>
<list style="symbols">
<t>"MUSI"
<vspace blankLines="1" />
To słowo oraz przymiotnik "WYMAGANY" oznacza, że
omawiany punkt jest bezwzględnym wymaganiem specyfikacji.
</t>
Uwaga końcowa
Na dzień dzisiejszy wiki wydaje mi się prostsze i praktyczniejsze, natomiast chciałbym aby decyzja o wykonaniu w tej technice opracowań bardzo wielu książek była podjęta rozważnie. « Saper // @dyskusja » 12:54, 27 cze 2007 (CEST)



