CAPTCHA

Da Wikipedia, a enciclopedia libre.
Ir á navegación Ir á busca
Esta CAPTCHA (versión 1) de "smwm" evita a interpretación da súa mensaxe por un ordenador xirando algunhas letras, deformándoas e engadindo un ton azul claro ao fondo.

O acrónimo inglés CAPTCHA (pronunciado: [ˈkæp.tʃə] ) denota no campo da informática unha proba composta por unha ou máis preguntas e respostas para determinar se o usuario é un ser humano e non un ordenador ou, máis precisamente, un bot .

O acrónimo, supostamente derivado do inglés " C ompletely A utomated P ublic T uring-test-to-tell C omputers and H umans A part " (" Proba de Turing pública e totalmente automática para distinguir entre computadores e humanos"), de feito reproduce foneticamente a expresión coloquial "¡Te pillou!" (Eu te collín!) . O termo foi acuñado en 2000 por Luis von Ahn , Manuel Blum e Nicholas J. Hopper da Universidade Carnegie Mellon e John Langford de IBM .

Unha proba CAPTCHA que se usa normalmente é aquela na que se solicita ao usuario que escriba que letras ou números están presentes nunha secuencia, que aparece distorsionada ou borrosa na pantalla .

Dado que a proba é xestionada por un ordenador, mentres que a proba orixinal de Turing é tratada por un humano, a proba CAPTCHA ás veces descríbese como unha proba inversa de Turing; con todo, esta é unha definición enganosa, porque tamén podería indicar unha proba de Turing na que ambos os participantes tentan demostrar que non son humanos; de feito, literalmente falando, es un robot .

Descrición

Orixes

Os CAPTCHA foron desenvolvidos por primeira vez en 1997 polo departamento de I + D de AltaVista dirixido por Andrei Broder , para evitar que os bots engadan URL ao seu motor de busca . Broder e os seus colegas intentaron crear imaxes resistentes aos ataques de OCR e por iso consultaron o manual dos escáneres Brother , que indicaba todas as características que debe ter un texto para ser recoñecido polo escáner: caracteres ben definidos e lineais, falta de diferenzas entre os tipos de letra utilizados no texto, un fondo homoxéneo que se distingue claramente do texto, etc. Ao aplicar estas indicacións pola contra, foi posible obter a peor situación posible, é dicir, un texto cuxa dixitalización sería moi difícil: caracteres torcidos, tipos de letra diferentes, cores do texto similares á do fondo ou dispositivos similares. Broder argumentou que a introdución desta tecnoloxía reduciu o spam en máis dun 95%.

Independentemente do equipo de AltaVista, Luis von Ahn e Manuel Blum desenvolveron e difundiron a idea da proba CAPTCHA no 2000 , é dicir, calquera tipo de programa que fose capaz de distinguir entre persoas e ordenadores. Inventaron varios tipos de probas, incluído o primeiro que recibiu unha difusión xeneralizada grazas ao uso de Yahoo!

Aplicacións

Os CAPTCHA úsanse para evitar que os robots utilicen determinados servizos, como foros , rexistrarse en sitios web , escribir comentarios e en xeral calquera cousa que se poida usar para crear spam ou para incumprir a seguridade con operacións de piratería como a forza bruta . Este tipo de proba tamén se usou para combater o spam xerado por bot obrigando ao remitente dunha mensaxe de correo electrónico que o destinatario non coñecía a pasar unha proba CAPTCHA antes de permitir a entrega da mensaxe.

características

Por definición, as probas CAPTCHA son completamente automáticas e normalmente non requiren intervención humana para administración ou mantemento, con vantaxes indubidables en termos de custos e fiabilidade.

Os algoritmos empregados para realizar as probas adoitan divulgarse ao público, aínda que en moitos casos están protexidos por patentes. Esta política de transparencia ten como obxectivo demostrar o feito de que a seguridade do método non reside no coñecemento dun algoritmo secreto (que podería obterse con técnicas de enxeñería inversa ou de forma fraudulenta); pola contra, para "romper" o algoritmo é necesario resolver un problema clasificado como "duro" no campo da intelixencia artificial .

Non é obrigatorio empregar técnicas visuais: calquera problema de intelixencia artificial que teña o mesmo grao de complexidade, como o recoñecemento de voz , é adecuado para servir de base a unha proba deste tipo. Algunhas implementacións permiten ao usuario escoller alternativamente unha proba baseada en técnicas auditivas, aínda que este enfoque sufriu un desenvolvemento máis lento e non sexa necesariamente tan eficaz como o visual. Ademais, é posible recorrer a outro tipo de probas que requiren unha actividade de comprensión do texto, como responder a unha pregunta ou un cuestionario lóxico, seguir instrucións específicas para crear un contrasinal, etc. Neste caso tamén os datos sobre a resistencia destas técnicas ás contramedidas son escasos.

Unha técnica prometedora que se vén desenvolvendo nos últimos anos emprega probas baseadas no recoñecemento dunha cara dentro dunha imaxe familiar. Para este tipo de CAPTCHA falamos de RTT baseado no recoñecemento de caras . Na literatura actual, só se implementaron dous métodos baseados neste tipo de CAPTCHA : o ARTiFACIAL [1] e un CAPTCHA baseado no recoñecemento facial . [2] [3]

Accesibilidade

O uso de probas CAPTCHA baseadas na lectura de textos ou outras actividades relacionadas coa percepción visual impide ou limita severamente o acceso a recursos protexidos para os usuarios con problemas de visión e, dado que estas probas están deseñadas especificamente para que non sexan lexibles por ferramentas automáticas, a tecnoloxía normal as axudas empregadas por usuarios cegos ou con discapacidade visual non poden interpretalas; pero incluso os usuarios daltónicos poden non poder pasar a proba. O uso das probas CAPTCHA , xeralmente ligadas ás fases iniciais de acceso ou rexistro aos sitios e ás veces repetidas para cada acceso, pode constituír unha discriminación contra estes usuarios con discapacidade de tal xeito que nalgunhas xurisdicións constitúe unha violación da lei.

Nas novas xeracións de CAPTCHA , creadas para resistir os programas de recoñecemento de texto máis sofisticados, pode ser bastante complicado, por non dicir imposible, ser capaz de recoñecer o texto de moitos usuarios, incluso en plena posesión da súa capacidade visual.

O W3C elaborou un informe destacando algúns dos problemas de accesibilidade asociados ao uso destas técnicas. [4]

Contramedidas

Despois do uso masivo de CAPTCHA , descubríronse algunhas contramedidas que permiten aos spammers pasar as probas.

O software intelixente agora pode resolver CAPTCHA de varios tipos. [5]

Greg Mori e Jitendra Malik presentaron en 2003 un estudo [6] que ilustra como evitar un dos sistemas máis populares para realizar probas CAPTCHA , EZ-Gimpy; este enfoque demostrou ser efectivo no 92% dos casos. En comparación co sistema Gimpy máis sofisticado pero menos estendido, a eficacia do método baixa ata o 33%. Non obstante, polo momento non se sabe se este algoritmo se implementou fóra do contexto da investigación.

Algúns programas tamén se crearon para buscar unha solución repetidamente e outros para recoñecer caracteres escritos, empregando técnicas especiais e non as estándar de OCR . Proxectos como PWNtcha [7] fixeron grandes avances, contribuíndo á migración global a CAPTCHA que é cada vez máis difícil.

Outra forma de aprobar un CAPTCHA é aproveitar as sesións nas que xa pasou a proba, gardando as probas e creando despois un arquivo de solucións.

Pero o método máis eficaz é empregar un ser humano para resolver o CAPTCHA : de feito é posible confiar ás persoas remuneradas a tarefa de resolver os CAPTCHA . O mencionado documento W3C [4] afirma que un operador pode resolver facilmente centos de probas CAPTCHA nunha hora.

Esta posible solución requiriría un investimento económico que non sempre se xustifica, pero descubriuse un método máis barato para obter os mesmos resultados: o spammer utiliza para este fin un sitio de Internet cun servizo que piden os usuarios humanos. un foro pero tamén unha colección de imaxes pornográficas. Así, cando un usuario pide iniciar sesión, ofréceselle un CAPTCHA obtido do sitio externo ao que o spammer quere atacar: a proba resólvea o usuario, que recibe a cambio unha remuneración que ten un custo insignificante para o spammer , mentres o sistema "recicla" a solución de proba para superar a barreira do sitio obxectivo.

reCaptcha

Logotipo de ReCaptcha

As probas CAPTCHA tiveron usos secundarios non relacionados só coa eliminación de spam: o máis coñecido refírese ao recoñecemento de textos contidos en libros antigos e chámase reCaptcha . Moitas bibliotecas están a converter dixitalmente as súas coleccións de textos antigos (incluídos manuscritos); esta conversión obtense a través da dixitalización das páxinas e a súa posterior análise a través dun programa de OCR , que analiza as imaxes das páxinas e extrae o texto nelas. Non obstante, os programas de OCR teñen dificultades para interpretar letras esvaecidas e páxinas amareleadas de textos antigos e cando son incapaces de recoñecer un texto con certeza requiren unha intervención humana, o que ralentiza o proceso e aumenta o custo da dixitalización.

Investigadores da Universidade Carnegie Mellon decidiron empregar sistemas CAPTCHA para interpretar palabras cuestionables identificadas polos programas de OCR. Cando dous sistemas OCR identifican unha palabra de xeito diferente, asóciase a unha palabra coñecida e envíase a un usuario que debe pasar unha proba CAPTCHA para acceder a un servizo. Suponse que se un usuario pode atopar a palabra coñecida correctamente, tamén atopará a palabra descoñecida cunha alta probabilidade. Cando tres usuarios dan a mesma resposta, o sistema almacena a palabra como correcta. Este sistema permitiu converter 440 millóns de palabras cunha precisión do 99%. En agosto de 2008, este sistema estaba a converter 4 millóns de palabras ao día. [8] Máis tarde o proxecto converteuse nunha empresa de arranque que en setembro de 2009 foi adquirida por Google , que iniciou un procedemento de dixitalización de decenas de millóns de libros almacenados en centos de librerías de todo o planeta e pretende explotar o proxecto reCaptcha para corrixir os erros resultantes de Escaneo OCR de textos. [9] O reCaptcha pódese asimilar á categoría de xogos cun propósito (GWAP) . [ sen fonte ]

CAPTCHA na cultura de Internet

Un dos fenómenos de Internet que naceu en 4chan refírese ao CAPTCHA . Refírese a un código no que se leu "Inglip Summoned": deu lugar á falsa lenda de que un deus escuro, como Inglip, volveu á terra para arrastralo á escuridade. Tamén hai varios vídeos en YouTube nos que Inglip daría ordes aos seus seguidores, sempre a través de códigos CAPTCHA extravagantes e moitas veces incomprensibles. [10]

Nota

  1. ^ Copia arquivada ( PDF ), en research.microsoft.com . Consultado o 14 de marzo de 2010 ( arquivado o 7 de xaneiro de 2010) .
  2. ^ Descargas gratuítas de Captcha de recoñecemento facial: Luxand FaceSDK por Luxand Development, Luxand Blink! Pro de Luxand Development and More
  3. ^ IEEE Xplore - Resumo Páxina
  4. ^ a b ( EN ) Matt May, Inaccessibility of Visual-Oriented Anti-Robot Tests , on W3C Working Group Note , 23 de novembro de 2005. Consultado o 12 de xullo de 2011 ( arquivado o 19 de xullo de 2011) .
  5. ^ A startup americana crea software para resolver Captcha usando intelixencia artificial , en CesarNews . Arquivado dende o orixinal o 28 de outubro de 2013. Consultado o 26 de marzo de 2021 .
  6. ^ (EN) Greg Mori, Jitendra Malik, Recognizing Objects in Adversarial Clutter: Breaking a Visual CAPTCHA (PDF) en cs.sfu.ca. Consultado o 12 de xullo de 2011 ( arquivado o 29 de setembro de 2011) .
  7. ^ PWNtcha - Caca Labs , en sam.zoy.org . Consultado o 3 de outubro de 2005 ( arquivado o 11 de setembro de 2005) .
  8. ^ Os textos antigos teñen futuro "Un método antispam salvalos" , en repubblica.it . Consultado o 19 de agosto de 2008 ( arquivado o 21 de agosto de 2008) .
  9. ^ Google compra reCaptcha , en macitynet.it . Consultado o 16 de setembro de 2009 ( arquivado o 22 de setembro de 2009) .
  10. ^ Inglipedia , en inglipnomicon.wikia.com , 16 de setembro de 2009. Consultado o 5 de xuño de 2011 ( arquivado o 18 de xuño de 2011) .

Elementos relacionados

Outros proxectos

Ligazóns externas

Control da autoridade LCCN (EN) sh2009002990 · GND (DE) 4828986-3 · BNF (FR) cb17001362r (data)
Seguridade informática Portal de seguridade das TIC : accede ás entradas da Wikipedia relacionadas coa seguridade das TIC