Kliknite na logo a navštívte stránky Spojenej školy sv. Vincenta de Paul v Bratislave-Ružinove. Spojená škola sv. Vincenta de Paul
(Bratislava-Ružinov, Slovensko / Slovakia) – Diskusné fórum / Návrat na homepage
 
 PomocPomoc   VyhľadávanieVyhľadávanie   Zoznam návštevníkovZoznam návštevníkov   Skupiny návštevníkovSkupiny návštevníkov   Zaregistruj maZaregistruj ma 
 Moje nastaveniaMoje nastavenia   Súkromné správySúkromné správy   Prihlás maPrihlás ma 

Nová reCAPTCHA: nech spamboty digitalizujú literatúru!

 
Pridať novú tému   Zaslať odpoveď    Fórum vdp.sk -> Archív -> O fóre a stránkach
Zobraziť predošlú tému :: Zobraziť ďalšiu tému  
Autor Príspevok
Alexander Avenarius
štamgast fóra
štamgast fóra


Na fóre od: 27. 5. 2006
Príspevkov: 122
Bydlisko: 15 min. od školy
Reputácia: 644.1
Hlasovania: 1

PríspevokZaslané: pondelok, 3. marca 2008, 19:45    Téma: Nová reCAPTCHA: nech spamboty digitalizujú literatúru! Odpovedať s citátom

[Text môjho dnešného príspevku do emailovej diskusnej skupiny Údržba Infoveku.]

Každý z nás pozná úkaz zvaný CAPTCHA. Samotné slovo je skratka anglického: plne automatizovaný verejný Turingov test na rozlišovanie ľudí od strojov. Rehot (Completely Automated Public Turing test to tell Computers and Humans Apart)

CAPTCHA vznikla v roku 2000 na Carnegie Mellon University v Pittsburghu. Problém je v tom, že ako doba pokročila, tak sa aj spamboty naučili kódy, ktoré im servíruje CAPTCHA, lúštiť. Každý rok je situácia horšia a horšia. Napriek tomu, že sme CAPTCHA v diskusnom fóre našej školy nasadili už v prvom roku jeho existencie (2006), občas sa v našom fóre zjavovali také prasačiny (aj fotografické), zasielané spambotmi, že pani riaditeľka mi alarmovaná aj cez víkend či neskoro večer musela telefonovať na mobil...

A tak si vynálezca CAPTCHA Luis von Ahn povedal, že treba zrevolucionizovať systém CAPTCHA. Preto minulý rok vznikla reCAPTCHA. Od včerajška ju máme nasadenú aj v školskom diskusnom fóre. Už po prvom dni funkčnosti je citeľný rozdiel: pri starej CAPTCHA sa každý deň vo fóre úspešne zaregistrovalo 5-10 spambotov a niektoré z nich aj anonymne zasielali prasačiny, hoci toto bolo menej obvyklé. Pri novej reCAPTCHA sme za jeden deň nezaznamenali zatiaľ žiadnu registráciu spambota. (Ešte vypuklejšie sa rozdiel prejavuje v mojom súkromnom diskusnom fóre, ktorého užívateľské rozhranie je v angličtine: každý deň sa mi vo fóre registrovalo 50-60 spambotov a anonymne zasielané prasačiny boli takmer na dennom poriadku. Od včerajška sa vďaka reCAPTCHA zatiaľ vo fóre neobjavil ani jeden zaregistrovaný spambot či jeho produkt.)

Ako vyzerá reCAPTCHA v praxi, pozrite si v obrazových prílohách tohto príspevku.

A teraz to najunikátnejšie na reCAPTCHA: jej celosvetová prevádzka je využívaná na digitalizáciu klasickej literatúry Zvolanie Zatiaľ len tej v angličtine. Z dvoch slov, ktoré musí užívateľ odpísať, jedno je také, pri ktorom si bol OCR softvér (typu FineReader) istý, že ho z naskenovaného textu prečítal správne. Pri druhom slove si OCR softvér istý nebol a práve tu pomôžu ľudia z celého sveta, ktorí sa prostredníctvom reCAPTCHA snažia „dobyť“ na takú či onakú internetovú stránku.

Ako píše Luis von Ahn, človek stratí vyplnením kódu CAPTCHA alebo reCAPTCHA desať sekúnd – avšak keď tých istých 10 sekúnd práce robí každý deň 60 miliónov ľudí... znamená to 150 tisíc zadarmo odpracovaných hodín denne.

A tak reCAPTCHA každý deň servíruje ľuďom na celom svete nejasné pasáže zo zdigitalizovanej klasickej literatúry a ľudia každý deň odpracujú zadarmo 150 tisíc hodín na digitalizovaní svojho literárneho dedičstva. Nie je to skvelý nápad? Bravó

Zaujímalo by ma, či by sa reCAPTCHA dala využiť aj na digitalizáciu diel slovenskej literatúry. Principiálne zrejme áno. Keďže pri reCAPTCHA ide, na rozdiel od CAPTCHA, o centralizovaný systém, zrejme by digitalizovanie slovenskej literatúry cez reCAPTCHA nebolo možné bez spolupráce s Carnegie Mellon University. Alebo sa mýlim Otázka Najtechnickejší opis toho, ako reCAPTCHA funguje, som našiel na webstránke s dokumentáciou jej klientskeho API. Priznám sa však, že moje technické vedomosti už nesiahajú tak ďaleko, aby som s touto webstránkou dokázal čokoľvek ďalšie podniknúť. Zmätok

Ak by niekto mal nejaký nápad, ako zužitkovať kódy reCAPTCHA aj pre digitalizáciu klasickej slovenskej literatúry, prosím napíšte. Osobne by som neváhal potom osloviť so žiadosťou o spoluprácu priamo Carnegie Mellon University, keď už by sme vedeli, ako na to. Hlavne by bolo potrebné zabezpečiť dôkladnú lokalizáciu reCAPTCHA: aby neborákovi z Floridy či Kamčatky nezačala reCAPTCHA na kontrolu servírovať útržky z Timravy či Hviezdoslava, lebo by to asi obojstranne neviedlo k úspechu. Rehot

Zároveň so spustením reCAPTCHA v školskom diskusnom fóre sme v školských fotogalériách (ktoré sú v rekonštrukcii) spustili klasickú CAPTCHA. Ide o jej najnovšiu verziu pre Coppermine z januára 2008. Bude zaujímavé sledovať, ako sa jej bude dariť v porovaní s inovovanou reCAPTCHA. Zatiaľ aj klasická CAPTCHA vo fotogalériách po prvom dni zaberá na 100 percent. (Bez CAPTCHA sa vo fotogalériách registrovalo ca. 3-5 spambotov denne a spamboti rozosievali každodenne vo fotogalériách ca. 100-300 prasačích komentárov.) reCAPTCHA pre Coppermine žiaľ zatiaľ nie je k dispozícii.

Na záver, ak by niekto z tu prítomných odborníkov vedel poradiť, prosím o pomoc aj ohľadom svojho súkromného diskusného fóra. Toto fórum má čierne pozadie s bielymi písmenami, čo však spôsobuje, že pri písaní do políčka kódu reCAPTCHA nič nevidno, pretože reCAPTCHA je prednastavená tak, že kód je vkladaný tiež čiernymi písmenami (pozri tretia obrazová príloha tohto príspevku). Samotná reCAPTCHA funguje, pisateľ však nevidí, čo píše... Čo pri dvoch krátkych slovách nie je až taký problém, ale každopádne je to nepríjemné a neštandardné. Vedel by niekto poradiť, ako prehodiť písmo v <textarea> na bielu farbu? Čokoľvek som zatiaľ skúsil (úprava šablóny danej stránky alebo <div> tagu), nezabralo... Na webstránke reCAPTCHA s API sa píše, že efekt, ktorý zrejme hľadám, by sa dal docieliť napríklad takýmto skriptom:

kód:
<script>
var reCAPTCHAOptions = {
   theme : 'white',
   lang : 'sk'
};
</script>

Žiaľ, ako laik netuším, kam by som tento skript mal vložiť... Skúšal som rôzne miesta v rôznych „pravdepodobných“ súboroch, ale výzor reCAPTCHA sa stále nemení...

Za pozornosť tiež stojí, že po aplikovaní reCAPTCHA na MediaWiki táto inštalácia sa u mňa skončila neúspešne a namiesto webstránok, kde mala byť vložená reCAPTCHA, sa vždy zjavilo iba chybové hlásenie 500.shtml. V prípade inštrukcií pre MediaWiki, ktoré sú jednoduché, som si 100% istý, že som ich dodržal, no napriek tomu mi reCAPTCHA v prostredí MediaWiki 1.82 odmietla fungovať a bolo ju treba deaktivovať.

Vďaka za prípadnú pomoc.



reCAPTCHA_pri_anonymnom_prispievani_do_fora.jpg
 Komentár:
Takto vyzerá reCAPTCHA pri anonymnom prispievaní do nášho diskusného fóra.
 Veľkosť:  134.61 KB
 Stiahnuté:  594-krát

reCAPTCHA_pri_anonymnom_prispievani_do_fora.jpg



reCAPTCHA_pri_registracii_vo_fore.jpg
 Komentár:
Takto vyzerá reCAPTCHA pri registrácii v našom diskusnom fóre.
 Veľkosť:  132.55 KB
 Stiahnuté:  569-krát

reCAPTCHA_pri_registracii_vo_fore.jpg



reCAPTCHA-problem_s_tmavym_pozadim_webstranky.jpg
 Komentár:
reCAPTCHA a problém v inom diskusnom fóre. Ak je pozadie webstránky tmavé, text v políčku, do ktorého treba odpísať kód, je tiež tmavý a teda ho nevidno...
 Veľkosť:  134.99 KB
 Stiahnuté:  567-krát

reCAPTCHA-problem_s_tmavym_pozadim_webstranky.jpg



_________________
avenarius@vdp.sk
Návrat hore
Ukáž informácie o autorovi Pošli súkromnú správu Pošli e-mail Ukáž webstránku autora
Zobraziť príspevky za predchádzajúce:   
Pridať novú tému   Zaslať odpoveď    Fórum vdp.sk -> Archív -> O fóre a stránkach Časy sú uvádzané v GMT +2 hodiny
Strana 1 z 1

 
Prejdi na:  
Nemôžeš tu založiť novú tému
Nemôžeš do tohto fóra posielať odpovede
Nemôžeš tu upravovať svoje príspevky
Nemôžeš tu vymazať svoje príspevky
Nemôžeš v tomto fóre hlasovať
Môžeš zasielať prílohy
Môžeš sťahovať prílohy



SwiftBlue Theme created by BitByBit
Powered by phpBB 2.0.20 © 2001, 2006 phpBB Group
© 2006–2009 vincentdepaul.sk / Fórum založené 1. apríla 2006