Capcha

요것이 바로 캡차(CAPTCHA)

캡차(CAPTCHA)란 무엇인가?

요즘은 왠만한 웹사이트에 가입을 하기 위해서는 이리저리 찌그러진 글자나 숫자를 가입폼에 적어야 합니다.

바로 로봇으로 가짜 계정(account)을 만들어 악용하는 것을 방지하는 것이 목적입니다.

당연하게 적어야 하는 것으로 알고 이용을 해 왔지만, 이것의 정확한 이름이 무엇인지, 언제, 누가 만들었는지에 대해서는 알고있는 것이 전혀 없었습니다.

우연히 신문에 올라 온 캡차(CAPTCHA)에 대한 기사를 읽은 후, 인터넷에서 자료를 좀 더 모아보았습니다.

캡차(CAPTCHA)는 2000년에 처음 선을 보였습니다. 야후(Yahoo)의 요청으로 카네기 멜론 대학(Carnegie Mellon University)의 루이스 안(Luis von Ahn)과 몇몇 사람들이 개발하였습니다.

요즘 대부분의 웹사이트에서 이 캡차 기술을 사용하고 있지만 실재로 개발자들에게는 한 푼도 돌아가지 않는다고 합니다. 특허(patent)를 내지 않았기 때문입니다. (완전 대박날 수 있었는데, 왜 특허를 내지 않았을까요?)

거의  10여년이 지난 지금 주 개발자였던 루이스 안이 캡차를 바탕으로 한 새로운 기술인 리캡차(reCAPTCHA)를 개발하였습니다.

reCapcha

이것이 바로 리캡차(reCAPTCHA)


리캡차와 캡차는 무엇이 다른가?

캡차에서는 아무 단어나 그냥 보여주지만, 리캡차에서는 의미는 있지만 철자는 정확치 않은 그런 단어들을 보여줍니다.

두 단어를 보여주는데 처음 단어는 철자가 정확한 단어이며, 두번째 단어는 철자가 맞을 수도 있고 틀릴 수도 있습니다.

좀 더 자세한 내용을 설명하기 전에 종이 문서를 전자 문서화 하는 것에 대해서 간단히 알아보죠.

구글은 물론이고 대표적인 신문사, 출판사 등에서 몇 해 전부터 아카이브(Archive) 문서들을 전자 문서화 하는 작업을 진행 중입니다.  이 작업에 가장 중요하게 사용되는 기술은 바로 광학 문자 인식(OCR) 기술입니다.

문제는 조금 오래된 종이 문서를 스캔을 한 후 광학 문자 인식을 하였을 때의 정확도는 80%정도 밖에 되지않기때문에 100% 전자 문서화 하는 대는 당연히 한계가 있습니다.

다시 리캡차로 돌아갑니다.

루이스 안이 새롭게 개발한 리캡차 기술은 광학 문자 인식으로 해결되지 않는 그 20%를 사람의 노력이 아닌 컴퓨터를 사용하여 해결해 줍니다.

아래 그림을 보면서 설명을 드리겠습니다.

OCR

광학 문자 인식 결과


보시는 바와 같이 빨간 줄이 그어진 단어들은 광학 문자 인식이 제대로 되지않은 단어들 입니다. 원본이 깨끗한 경우는 거의 90%이상까지도 정확한 인식이 가능하지만, 오래된 신문과 같이 원본이 온전하지 않은 경우는 위와 같이 오판 확률이 그만큼 높아지게 마련입니다.

리캡차 기술은 위에서 말씀드린 바와 같이 두 단어를 보여줍니다. 처음 단어는 온전한 단어이고 두번째 단어는 위 그림에서 처럼 철자가 정확치 않은 단어입니다.

사용자들의 입력을 통해서 두 번째 단어의 정확한 철자를 얻을 수 있도록 한 것입니다. 보여지는 단어는 광학 문자 인식 후의 결과물이 아닌 스캔한 이미지이므로 사용자들이 거의 정확하게 제대로 된 철자를 입력하게 된다는 것에 착안한 것입니다.

이렇게 리캡차 기술과 사용자들의 도움(?)으로 완전 판독이 불가능한 모든 종이 문서를 전자 문서화 할 수 있게되는 것입니다.

많은 돈은 아니지만 리캡차 기술로 루이스는 이제 어느 정도 수입을 올리고 있다고 합니다. 돈이 목적이 아니므로 자신의 홈페이지 및 기타 운영에 드는 비용을 충당하는 것으로 만족한다고 합니다.
 
지금은 뉴욕 타임즈(Newyork Times) 아카이브를 전자 문서화 하는 프로젝트를 진행하고 있습니다.

무료로 리캡차 기능을 자신의 홈페이지에 달 수도 있습니다. 더 많은 사람들이 이 기능을 사용함으로 인해 비영리 단체의 전자 문서화를 돕는 이 중의 효과를 볼 수 있습니다.


http://recaptcha.net/

2008/08/13 20:20 2008/08/13 20:20

Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다

Trackbacks List

  1. 캡차(Capcha) 라고 들어보셨나요?

    Tracked from 견z. 2008/08/14 02:25 Delete

    첨부한 이미지를 보시면 아아~ 이게 캡차 구나 라고 하실지도 모르겠네요 프로그램등을 이용해서 로봇이 자동으로 회원가입을 하고 그것을 악용하는 사례를 막기 위해서 여러 사이트등에서 많이 사용하고 있지요 캡차와 리캡차에 대한 간략한 설명이 있는 포스트 한번 보시겠어요?

Comments List

  1. 집합명사 2008/08/14 02:02 # M/D Reply Permalink

    CAP"T"CHA

    1. 1stgood 2008/08/14 05:20 # M/D Permalink

      감사합니다. Capcha를 CAPTCHA로 모두 수정하였습니다.

Leave a comment

수년 전에 마이크로 소프트에서 개발한 태블릿 PC 기억들 하시죠.

얼마나 많은 사람이 태블릿 PC를 사용하고 있는지는 몰라도, 제가 보기에는 태블릿 PC는 성공하지 못한 제품이라고 여겨집니다. 값만 비쌌지 노트북 컴퓨터와 비교해 특별히 뛰어난 기능을 제공하고 있지 못합니다.  

굳이 특별한 기능을 찾자면 터치 스크린(touch screen)과 스타일러스(stylus), 또는 디지털 펜(digital pen) 정도가 아닌가 합니다.  사실 이게 전부라고 해도 과언이 아니죠!


사용자 삽입 이미지

실리콘밸리의 라이브스크라이브(Livescribe) 회사가 새롭게 선보인 펄스(Puls)  펜과 종이 노트가 태블릿 PC를 대신할 정도의 막강한 기능을 자랑합니다.

제목에 '펜과 일반 종이 노트가 태블릿 PC를 대신한다!'라고 썼는데, 엄격히 말하면 태블릿 PC와 디지털 펜으로 가능했던 노트 기능을 펄스 펜이 대신한다고 하는 것이 옮을 듯합니다.

이 펄스펜 하나면, 노트에 기록한 내용을 컴퓨터로 바로 전송하여 전자 문자로 바꾸는 기능은 물론이고 필기를 하면서 동시에 소리도 녹음할 수가 있습니다.

"전자펜으로 전자문서 만들고 소리 녹음하는 것이 뭐 그렇게 대단한 거냐?'라고 물으시는 분이 계시겠지요?

자, 그럼 왜 펄스 펜이 눈여겨 볼만큼 대단한 지에 대해 알아보도록 하겠습니다.

사용자 삽입 이미지
펄스 펜에는 보통의 잉크 펜이 달렸습니다. 그래서 일반 종이 노트에 그냥 적고 싶은 내용을 적는 것입니다.  그런데 신기하게도 펄스 펜에 달린 조그마한 카메라가 사용자가 잉크로 적어 내려가는 내용을 일일이 찍어 전체적인 내용을 완전하게 표현한다는 것입니다. 적외선 카메라가 1초에 72장의 사진을 찍는다고 합니다.

더욱더 신기한 것은 종이에 어떤 내용을 적을 때 녹음되었던 소리를 그냥 펜으로 그 위치를 톡 하고 치기만 하면 바로 그때 녹음된 내용을 들을 수 있다는 사실입니다.

예를 들어, 강의 시간에 도표를 노트에 적고 있다고 생각해 봅시다. 내가 도표를 그리는 동안에 교수님께서 열심히 그 도표에 대해 설명을 하고 계시겠죠?  당연히 교수님의 강의 내용이 펄스 펜에 달린 두 개의 고성능 마이크를 통해 녹음됩니다. 이 두 개의 마이크가 잡음을 제거해 준다네요.

나중에 집에 와서 도표를 보면서 내용을 기억해 내려고 해도 도무지 기억이 나질 않습니다. 그렇다고 일일이 소리파일을 앞으로 돌렸다, 뒤로 돌렸다 하며 내용을 찾기도 쉬운 일이 아니죠.

도표를 그릴 때 교수님이 설명하셨던 내용을 듣기 위해선 그냥 펄스 펜으로 도표를 꼭 하고 찍어주기만 하면 바로 그때 녹음되었던 내용이 재생됩니다.  대단하지 않나요?

사용자 삽입 이미지

노트 밑에는 미디어 플레이어의 버튼처럼 소리 조절, 빠르게/느리게 재생을 위한 버튼들이 그림으로 그려져 있는데, 펜으로 이 그림 버튼을 클릭하면 마치 미디어 플레이어에서 소리파일을 재생하는 것과 같은 효과를 볼 수가 있습니다.

사용자 삽입 이미지
펜을 크레들에 올려놓으면 자동으로 펜에 저장되었던 필기내용과 소리가 연결된 컴퓨터로 전송되며, 이때 만들어진 전자문서에서도 간단한 클릭을 통해 소리를 바로 들을 수가 있습니다.

사용자 삽입 이미지
이렇게 자신의 컴퓨터에 저장된 파일은 사진 파일을 공유하듯이 다른 사람들과 쉽게 공유하는 것도 가능합니다.

*****


도대체 어떻게 그 작은 펜이 종이에 적힌 전체적인 내용을 똑같이 만들어 낼 수 있는 걸까요?

그 비밀은 바로 종이에 촘촘히 박혀있는 작은 점들에 있습니다.  위에서 일반 종이라고 말씀을 드렸는데, 엄격히 말하면 일반 종이는 아닙니다.

사용자 삽입 이미지
저렇게 깨알같이 박혀있는 저 작은 점들의 위치정보와 그 점 위에 쓰여 있는 잉크를 적외선 카메라로 찍으면서 내용을 저장하는 것이죠. 일 초에 72장의 이미지를 저장한다고 하니까, 아무리 글씨를 빨리 쓰는 사람이라고 하더라도 모든 내용을 캡쳐할 수가 있는 것이죠.

*****


위에서 말씀드린 바와 같이, 펄스 펜을 사용하려면 점이 박힌 특별한 노트를 사용해야 합니다.  그리고 잉크 펜 카트리지도 수시로 갈아주어야겠죠?

그럼 과연 펄스 펜을 사용하기 위해 드는 비용은 어떻게 될까요?

일단 펜 자체 가격은 1기가바이트 용량이 149불이고, 2기가바이트 용량은 199불입니다. 그렇게 비싸다고도 싸다고도 할 수 없는, 제가 생각하기에는 무난한 가격인 것 같습니다.

문제는 노트 값과 잉크 펜 카트리지 값이 되겠네요.

사용자 삽입 이미지
100장짜리 노트 한 권의 값은 $19.95입니다. 일반 노트를 좋은 놈으로 산다고 해도 기껏해야 5불 안팎이니까 아주 비싼 축에 속합니다.
100짱자리 노트 네 권의 값이 $19.99입니다. 한 권에 5불 정도이니까, 그렇게 비싸다고 할 수는 없을 것 같습니다. (수정 8/6)

사용자 삽입 이미지
잉크 펜 카트리지 하나 값은 $5.95입니다. 카트리지 값은 무난하다고 봐야겠네요.

*****


펄스 펜의 기능과 작동원리 그리고 가격에 대해서 알아보았습니다. 개인적으로 가격에서 조금 부담이 되긴 하지만, 하나 장만하면 굉장히 유용하게 사용할 수 있을 것 같습니다.

특히 학생들과 기자들에게 아주 유용한 도구가 될 듯합니다.  여러분은 어떻게 생각하세요?  하나 지르실 생각이 있으신지?

한 가지 덧붙이고 싶은 것은 펄스 펜의 작동원리가 문자인식에 기초한 것이 아니라서, 일단 종이에 쓴 모든 내용을 마치 스캔너로 스캔한 것과 같이 전자문서로 바꿀 수 있다는 점입니다.

그리고 일단 전자문서로 바뀐 문서는 문자인식을 사용하여 검색도 가능합니다.

라이브스크라이브 홈페이지: http://www.livescribe.com/

-----

처음으로 하드웨어(Hardware/Gadget)를 소개했습니다.  앞으로는 종종 새롭고 유용한 하드웨어를 소개하도록 하겠습니다. 

-----

[8월 6일 update]

참고로 펄스 펜을 만든 라이브스크라이브 회사는 캘리포니아 오클랜드(Oakland)에 자리 잡고 있습니다. 오클랜드는 제가 사는 산호세에서 북쪽으로 약 40분 정도 운전하면 갈 수 있는 곳입니다.

펄스 펜이 너무 마음에 들어 인터넷을 뒤지던 중 새로운 정보를 발견하였습니다.  펄스 펜 전용 노트 표지에는 전자계산기로 사용할 수 있는 계산기 그림이 붙어 있어서, 펄스 펜으로 계산할 수가 있다고 합니다.

위와 같은 컴퓨팅을 '종이 기반 컴퓨팅(Paper-based Computing)'이라고 부르더군요. 아직 보편적으로 통용되는 용어는 아닌 것 같습니다.

사용자 삽입 이미지
그림 출처: http://blog.wired.com/business/2008/01/livescribe-puls.html

-----

[8월 6일 오후 8시 30분 Update]

퇴근길에 Target에 들러서 하나 장만했습니다.  지금 잠깐 몇 가지 테스트해 보았는데, 이거 예상했던 것보다 훨씬 더 대단합니다.

예를 들면 간단히 종이 위에 피아노를 그리고 건반을 톡톡 찍으면 피아노가 연주됩니다. 물론 간단한 전자피아노처럼 악기 종류도 바꿔가면서 연주할 수 있고, 재미있는 리듬도 흘러나오게 할 수 있습니다.

사용기(full report)는 제가 어느 정도 익숙해지면 자세하게 올리도록 하겠습니다.

2008/08/05 17:51 2008/08/05 17:51

Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다

Trackbacks List

  1. 펜과 일반 종이가 테블릿 PC를 대신한다!

    Tracked from 블로고스피어는 지금. 2008/08/06 05:03 Delete

    우리가 주로 PC에서 사용하는 입력장치에는 대표적으로 키보드와 마우스를 들 수 있겠죠 펜마우스, 타블렛 등 여러가지 장치들이 있긴 하지만 키보드와 마우스를 대체하지는 못했는데요 터치형 디스플레이를 기본적으로 장착한 테블릿PC가 많은 사람들의 이목을 집중시키긴 했으나 대중화는 되지 못했다고 생각하는데 지금 소개하는 포스트에 나와있는 이 입력장치는 향후 어떻게 될까요? 미래형 입력장치라고 생각할 수 있는 그러나 아날로그적이라고 할 수도 있는 제..

Comments List

  1. 활의노래 2008/08/05 19:06 # M/D Reply Permalink

    우.........우와 +_+ 대단한데요? 한번 지르고 싶어지는군요.

    1. 1stgood 2008/08/06 21:07 # M/D Permalink

      저도 요 녀석이 아주 마음에 듭니다. 생일 선물로 이미 iPhone을 부탁했기 때문에 펄스 펜을 구입하는 것은 좀 더 생각을 해봐야 할 듯합니다.

  2. 맛짱 2008/08/06 17:53 # M/D Reply Permalink

    와~~~ 가지고 싶어요. 마음에 듭니다 ^^;

    1. 1stgood 2008/08/06 20:47 # M/D Permalink

      유혹을 이기지 못하고 지르고 말았습니다!!!

  3. joogunking 2008/12/15 17:55 # M/D Reply Permalink

    아날로그에서 디지털로 넘어가는 과도기적 제품같았지만 생각해 보니 디지털 보다 인간에 접근한 더 발전된 제품같아요.
    좋은 정보 감사합니다.

  4. Jay 2009/04/06 22:11 # M/D Reply Permalink

    노트를 복사해서 사용해 보셨나요? 된다면 좋겠는데요...

    1. 1stgood 2009/04/21 21:53 # M/D Permalink

      노트를 프린트 할 수 있는 파일을 다운받으실 수 있습니다.

Leave a comment

블로그 이미지

실리콘밸리에 살고 있는 SW 엔지니어가 풀어 놓는 미국생활 이야기와 IT 관련 글을 보실 수 있습니다.

- 1stgood

Archives

Statistics Graph