Sunday, February 19, 2012

Captcha ja ReCaptcha


LÜHIDALT KONTROLLSÕNADEST

Kontrollsõnu nõudvasse blogisse edukaks postituseks ära enne sõnade või  sõna ja numbri segase esituse pärast muretse, kui oled valmis vajutama "kirjasta kommentaar" ("Publish").

1) VAHETULT ENNE kirjastusnupule vajutamist vajuta sisestuskastist paremal olevale ringikujulisele noolele. Ilmub uus sõnapaar. Kui pilt on liiga segane, korda ringnoolele vajutamist seni, kuni näidatakse midagi (peaaegu) arusaadavat.
2) Siis tipi SÕNA tühik NUMBER  või vastupidi: NUMBER tühik SÕNA selles järjestuses nagu ekraanil on.
3) LÕPUKS VAJUTA KIRJASTUSNUPPU. Kui ikka ei saanud pihta, alusta uuesti punktist 1 

EDASI PIKEM JUTT SAMAL TEEMAL


Captcha  

Kui blogiautor on seadistanud Settings->Comments->Show word verification for comments? -Yes, siis selleks, et kommentaar jõuaks blogilehele, palutakse kommeenteerijal sisestada mingi arvuti poolt pildina genereeritud sõna. Tõesta, et sa pole robot! Selline kontroll aitab hoida ära , et su blogileht ei muutuks vastu sinu tahtmist  näiteks viagra reklaamsaidiks. Omaenda blogi kommenteerides sult tekstituvastust ei nõuta. Mõiste CAPTCHA on lühend ingliskeelsest väljendist - Complitely Automated Public turing Test to tell Computers and Humans Apart - täielikult automatiseeritud test, tegemasks vahet arvutitel ja inimestel. Vaegnägijatele  pakutakse helilist tuvastust, tippimisevastastele on arendusel piltide valikuga projekt.



ReCaptcha 
Viimasel ajal ei piirdu tõestus enam ühe sõnaga, vaid sisestada palutakse kaks tühikuga eraldatud sõna, millest teine on sageli üsna segane. Võtab kohe kulmu kortsu. Tegelikult on inimese tuvastamiseks oluline ainult üks  sõna. Teise, segasema  sigrimigri tähenduse äraarvamisega võtame  "vabatahtlikult" osa suurest digitaliseerimise projektist. Teine sõna nimelt pärineb skaneeritud vanast paberteosest, kus teksti kvaliteet ei ole piisav automaatseks tuvastuseks. Kui mingi hulk - näiteks 10 inimest, on udusõna ühtmoodi arvanud, siis loetakse see õigeks. Vahel tundub küll, et igaks juhuks kiusatakse täiesti õigesti tipitud sõnade valeks lugemisega. Arvatavalt on siiski tegemist liig suure viivitusega vastamisel.

Captcha kui meetodi leiutas Carnegie Mellon Univercity arvutiteaduste professor Louis von Ahn. Peagi hakkas ta mõtlema, et kui iga inimene kulutab sõnatuvastusele 10 sekundit, siis päevas teeb see 500 tuhat tundi asjatult raisatud inimtööaega. Tema järgmine idee oligi ReCaptcha. Nii oli topelttuvastuse esimese aasta jooksul, 2009 aasta suveks  6% maakera elanike kaasabil tuvastatud 35 miljonit sõna. New York Times-i 20 aasta arhiiv sai digitaliseeritud mõne kuuga. Olen poolt, kuid kahju, et eestimaised projektid sellist hulka priitahtlikku tööjõudu kasutada ei saa. Tegelikult otsest takistust ei ole - meie populaarsemad kommentaariportaalid võiksid ehk kodumaise ReCaptcha digiprojekti käivitada. Kogu maailma osavõtu peale ei saa siiski loota - nad ju ei tunne meie täpitähti.
Teema kohta võid lugeda siit ja siit. Liigse optimismi vähendamiseks  leiad sõna automaatse äraarvamise skripti siit.

KUMB SÕNA PEAB OLEMA ÕIGE JA KAS MA VÕIN TIPPIDA VAID ÜHE SÕNA?

Ei, ühest sõnast ei piisa, sinult oodatakse tõsimeelset kaastööd - pole hullu, kui udusõna ei ole päris kindlalt diagnoositud. Viimasel aja on ühe sõna asemel number. See tuleb samuti sisestada, vahele kindlasti tühik! Mõistlik on alles otse enne kommentaari kirjastamist vajutada ringikujulist noolt, et ajavahet vältida. Noolele võib vajutada ka mitu korda - seni kuni mõistatamiseks pakutav tekst arusaadavam tundub. Igal juhul ei maksa oma 2 tekstiosa  sisse tippida enne eelvaate vaatamist.

Kummal pool siis? ReCaptcha algpäevil oli alati paremal udusõna, nüüd pole see enam kindel. Ka tundub, et mõlemaid sõnu on täiendavalt keerulisemalt tuvastatavaks disainitud - poole sõna pealt vahetatud aluspõhja ja teksti värvi ning vahel mingi täiendav joon läbi veetud. Keerulisemaks tegemise põhjuseks on üha paremad automaatsed tekstiuvastamisprogrammid - vaata näteks eelmise osa viimast linki. Võimalik, et varsti suudavad arvutid sama hästi tuvastamisega toime tulla kui inimesed. See võibki olla Captcha kui spämmivastase abivahendi lõpp

TAHAN ÄRA VÕTTA OMA BLOGILT SELLE KONTROLLI
Ära võtmine on lihtne ja sõpradel mugavam - vähemalt, kuni esimese mass-spämmi juhtumini.
Dashboard->Settings->Comments->Show word verification for comments? -No
Soovitavalt lisa veel 
Comment moderation ->Only posts older than NN days (vali 14 päeva või vähem!)

Milleks modereerida kommentaare ja kuidas see toimub? Oletatavalt vaatad oma uuemaid postitusi ise üle, et tutvuda kommentaaridega. Spämmkommentaarid võivadaga ilmuda kõige tõenäolisemalt vanemate postituste juurde ning sul pole aimugi, et abistad spämmijaid oma kauba või idee müügil. 
Kui valid modereerimise, ehk avaldamiseelse kohustusliku läbivaatuse piiriks näiteks 7 päeva, siis kuni nädalavanustele postitustele tehtud kommentaarid ilmuvad kohe, kuid vanematele postitustele lisatud kommentaarid jäävad ootele, kuni sa avad oma Dashboardil
Comments | Awaiting moderation ja lubad ühekaupa vanemad kommentaarid oma lehele ilmuda.

Mida populaarsem blogi, seda ahvatlevam see on spämmimootoritele - nokk kinni, saba lahti, pole midagi parata  :)





6 comments:

  1. Aitäh! Juhtusingi just äsja mingit uut ja veidrat sigri-migrit nägema :( Hea, et olemas oled ja teed arvutiasjanduses mitte kõige kompetentsemate jaoks asjad puust ette ja värvid punaseks ka!

    ReplyDelete
  2. Mina ütlen ka suure-suure aitäh!

    Mul poleks midagi ka 10 sõna tippimise vastu midagi kui nad nii segaselt poleks antud:)

    ReplyDelete
  3. Sa oled meid nii palju õpetanud, et äkki võiks veel abi paluda. Kui ma oma blogi avan, siis hüppab temaga koos eraldi kaasa mingi tobe Traviani mänguleht. Ja seda nii IE, FF kui Chromega. Ma pole teda avanud, panen lihtsalt ristist kinni, sest tal pole ühtki kohta, mida klõpsata, et ta enam kunagi end ei ilmutaks. Ega see kinnipanek nii raske pole, aga ta teeb kuidagi närviliseks. Kas on mingi võimalus teda ära keelata?

    ReplyDelete
  4. Mind on aidanud ka see, et anonüümne kommenteerimine on keelatud, modereerimine aga täies ulatuses maha võetud. Viie aasta jooksul ei ainsatki spämmi (või on mul lihtsalt ebapopulaarne blogi).

    ReplyDelete
  5. Jah, anonüümse mahavõtmine on hea spammi vastu. Blogilugejatel loodetavasti on meelespüsiv kasutajanimi-password.

    Modereerida otseselt pole ka vaja kui oma blogi kommetaare tavaliselt blogi tagaküljelt loed - seal on kommentaarid näha nende lisamise järjekorras.

    Juba üle aasta on olemas ka spam inbox - published (comments) kõrval. Seda küll arvatavasti tühjendatakse perioodiliselt nagu meilispämmigi.

    ReplyDelete