Alexander Avenarius štamgast fóra
Na fóre od: 27. 5. 2006 Príspevkov: 122 Bydlisko: 15 min. od školy Reputácia: 644.1 Hlasovania: 1
|
Zaslané: pondelok, 3. marca 2008, 19:45 Téma: Nová reCAPTCHA: nech spamboty digitalizujú literatúru! |
|
|
[Text môjho dnešného príspevku do emailovej diskusnej skupiny Údržba Infoveku.]
Každý z nás pozná úkaz zvaný CAPTCHA. Samotné slovo je skratka anglického: plne automatizovaný verejný Turingov test na rozlišovanie ľudí od strojov. (Completely Automated Public Turing test to tell Computers and Humans Apart)
CAPTCHA vznikla v roku 2000 na Carnegie Mellon University v Pittsburghu. Problém je v tom, že ako doba pokročila, tak sa aj spamboty naučili kódy, ktoré im servíruje CAPTCHA, lúštiť. Každý rok je situácia horšia a horšia. Napriek tomu, že sme CAPTCHA v diskusnom fóre našej školy nasadili už v prvom roku jeho existencie (2006), občas sa v našom fóre zjavovali také prasačiny (aj fotografické), zasielané spambotmi, že pani riaditeľka mi alarmovaná aj cez víkend či neskoro večer musela telefonovať na mobil...
A tak si vynálezca CAPTCHA Luis von Ahn povedal, že treba zrevolucionizovať systém CAPTCHA. Preto minulý rok vznikla reCAPTCHA. Od včerajška ju máme nasadenú aj v školskom diskusnom fóre. Už po prvom dni funkčnosti je citeľný rozdiel: pri starej CAPTCHA sa každý deň vo fóre úspešne zaregistrovalo 5-10 spambotov a niektoré z nich aj anonymne zasielali prasačiny, hoci toto bolo menej obvyklé. Pri novej reCAPTCHA sme za jeden deň nezaznamenali zatiaľ žiadnu registráciu spambota. (Ešte vypuklejšie sa rozdiel prejavuje v mojom súkromnom diskusnom fóre, ktorého užívateľské rozhranie je v angličtine: každý deň sa mi vo fóre registrovalo 50-60 spambotov a anonymne zasielané prasačiny boli takmer na dennom poriadku. Od včerajška sa vďaka reCAPTCHA zatiaľ vo fóre neobjavil ani jeden zaregistrovaný spambot či jeho produkt.)
Ako vyzerá reCAPTCHA v praxi, pozrite si v obrazových prílohách tohto príspevku.
A teraz to najunikátnejšie na reCAPTCHA: jej celosvetová prevádzka je využívaná na digitalizáciu klasickej literatúry Zatiaľ len tej v angličtine. Z dvoch slov, ktoré musí užívateľ odpísať, jedno je také, pri ktorom si bol OCR softvér (typu FineReader) istý, že ho z naskenovaného textu prečítal správne. Pri druhom slove si OCR softvér istý nebol a práve tu pomôžu ľudia z celého sveta, ktorí sa prostredníctvom reCAPTCHA snažia „dobyť“ na takú či onakú internetovú stránku.
Ako píše Luis von Ahn, človek stratí vyplnením kódu CAPTCHA alebo reCAPTCHA desať sekúnd – avšak keď tých istých 10 sekúnd práce robí každý deň 60 miliónov ľudí... znamená to 150 tisíc zadarmo odpracovaných hodín denne.
A tak reCAPTCHA každý deň servíruje ľuďom na celom svete nejasné pasáže zo zdigitalizovanej klasickej literatúry a ľudia každý deň odpracujú zadarmo 150 tisíc hodín na digitalizovaní svojho literárneho dedičstva. Nie je to skvelý nápad?
Zaujímalo by ma, či by sa reCAPTCHA dala využiť aj na digitalizáciu diel slovenskej literatúry. Principiálne zrejme áno. Keďže pri reCAPTCHA ide, na rozdiel od CAPTCHA, o centralizovaný systém, zrejme by digitalizovanie slovenskej literatúry cez reCAPTCHA nebolo možné bez spolupráce s Carnegie Mellon University. Alebo sa mýlim Najtechnickejší opis toho, ako reCAPTCHA funguje, som našiel na webstránke s dokumentáciou jej klientskeho API. Priznám sa však, že moje technické vedomosti už nesiahajú tak ďaleko, aby som s touto webstránkou dokázal čokoľvek ďalšie podniknúť.
Ak by niekto mal nejaký nápad, ako zužitkovať kódy reCAPTCHA aj pre digitalizáciu klasickej slovenskej literatúry, prosím napíšte. Osobne by som neváhal potom osloviť so žiadosťou o spoluprácu priamo Carnegie Mellon University, keď už by sme vedeli, ako na to. Hlavne by bolo potrebné zabezpečiť dôkladnú lokalizáciu reCAPTCHA: aby neborákovi z Floridy či Kamčatky nezačala reCAPTCHA na kontrolu servírovať útržky z Timravy či Hviezdoslava, lebo by to asi obojstranne neviedlo k úspechu.
Zároveň so spustením reCAPTCHA v školskom diskusnom fóre sme v školských fotogalériách (ktoré sú v rekonštrukcii) spustili klasickú CAPTCHA. Ide o jej najnovšiu verziu pre Coppermine z januára 2008. Bude zaujímavé sledovať, ako sa jej bude dariť v porovaní s inovovanou reCAPTCHA. Zatiaľ aj klasická CAPTCHA vo fotogalériách po prvom dni zaberá na 100 percent. (Bez CAPTCHA sa vo fotogalériách registrovalo ca. 3-5 spambotov denne a spamboti rozosievali každodenne vo fotogalériách ca. 100-300 prasačích komentárov.) reCAPTCHA pre Coppermine žiaľ zatiaľ nie je k dispozícii.
Na záver, ak by niekto z tu prítomných odborníkov vedel poradiť, prosím o pomoc aj ohľadom svojho súkromného diskusného fóra. Toto fórum má čierne pozadie s bielymi písmenami, čo však spôsobuje, že pri písaní do políčka kódu reCAPTCHA nič nevidno, pretože reCAPTCHA je prednastavená tak, že kód je vkladaný tiež čiernymi písmenami (pozri tretia obrazová príloha tohto príspevku). Samotná reCAPTCHA funguje, pisateľ však nevidí, čo píše... Čo pri dvoch krátkych slovách nie je až taký problém, ale každopádne je to nepríjemné a neštandardné. Vedel by niekto poradiť, ako prehodiť písmo v <textarea> na bielu farbu? Čokoľvek som zatiaľ skúsil (úprava šablóny danej stránky alebo <div> tagu), nezabralo... Na webstránke reCAPTCHA s API sa píše, že efekt, ktorý zrejme hľadám, by sa dal docieliť napríklad takýmto skriptom:
kód: | <script>
var reCAPTCHAOptions = {
theme : 'white',
lang : 'sk'
};
</script> |
Žiaľ, ako laik netuším, kam by som tento skript mal vložiť... Skúšal som rôzne miesta v rôznych „pravdepodobných“ súboroch, ale výzor reCAPTCHA sa stále nemení...
Za pozornosť tiež stojí, že po aplikovaní reCAPTCHA na MediaWiki táto inštalácia sa u mňa skončila neúspešne a namiesto webstránok, kde mala byť vložená reCAPTCHA, sa vždy zjavilo iba chybové hlásenie 500.shtml. V prípade inštrukcií pre MediaWiki, ktoré sú jednoduché, som si 100% istý, že som ich dodržal, no napriek tomu mi reCAPTCHA v prostredí MediaWiki 1.82 odmietla fungovať a bolo ju treba deaktivovať.
Vďaka za prípadnú pomoc.
Komentár: |
Takto vyzerá reCAPTCHA pri anonymnom prispievaní do nášho diskusného fóra. |
|
Veľkosť: |
134.61 KB |
Stiahnuté: |
594-krát |
|
Komentár: |
Takto vyzerá reCAPTCHA pri registrácii v našom diskusnom fóre. |
|
Veľkosť: |
132.55 KB |
Stiahnuté: |
569-krát |
|
Komentár: |
reCAPTCHA a problém v inom diskusnom fóre. Ak je pozadie webstránky tmavé, text v políčku, do ktorého treba odpísať kód, je tiež tmavý a teda ho nevidno... |
|
Veľkosť: |
134.99 KB |
Stiahnuté: |
567-krát |
|
_________________ avenarius@vdp.sk |
|