지금까지는 생각하지 못하고 있다가, 얼마 전 네이버 검색엔진에 사이트 등록신청을 했다. 네이버::검색등록 에서 사이트와 지역정보 등록을 할 수 있다.

사용자 삽입 이미지

사이트 이름은 'Harry's_Lab', 설명은 'Programmer Harry, his laboratory'로 등록 신청을 했다. 그러나 며칠 후 통보된 등록 결과는 신청 사항과 딴판이었다. 사이트 이름은 'Harrys'로 되어 있었고, 설명에는 '일상이야기, 오피니언, 컴퓨터, 일본어 등 수록.'이라고 되어 있었다. 설명이야 훨씬 나아졌기 때문에 별 불만이 없었지만, 마음대로 블로그 이름을 줄이는 것은 좀 아니다 싶어 수정을 요청했고, 다시 며칠 후 등록상 오류라며 신청한 형태에서 특수문자가 빠진 형태인 'Harrys Lab'으로 사이트가 등록되었다.

사용자 삽입 이미지
지금까지 어려운 경로로 이 블로그에 들어오고 있었다면, 앞으로는 더 쉽게 접근이 가능할 것이다. 네이버 검색창에 'Harrys'라고만 치면 최상단에 노출된다. 다만, 'Harry'와 같이 's'를 빼먹을 경우에는 검색되지 않으니 참고하기 바란다.



2008년 1월 19일 이후 작성된 모든 글에 대해서 퍼가는 것을 금지합니다.
퍼가고자 하시는 분은 링크를 달아 주시기 바랍니다.
Posted by Harry
알림본 포스트는 악마의9시저주 님의 글, 무료백신 에 대한 생각을 적은 글입니다.

필자는 백신을 사용하지 않는다. 필자는 컴퓨터와 일심동체로, 컴퓨터가 바이러스에 감염되면 곧바로 알아차리고 직접 치료가 가능하다. 물론 우스갯소리로 아는 동생에게 말한 것이지만, 실제로 현재 백신을 쓰지 않고 있고, 바이러스가 걸렸다 생각되면 직접 치료한다.

때문에 현재 백신 시장에 대해 논하는 것이 헛소리가 될 수밖에 없을 것이다. 특히 화두가 되고 있는 무료 백신(PC 그린, 알약, 빛자루 데스크톱)은 한 번도 써 본 적이 없기 때문에 주관적인 글이 될 가능성이 농후하므로 마음에 들지 않으시는 분은 페이지를 이동해 주시길 미리 말씀드린다.

악마의9시저주 님께서 글의 근거로 드신 것은 안철수 연구소 에서 발행한 시큐레터 212호 이다. 대충 읽어 보면 알겠지만, 객관성이 많이 흔들리고 있다는 것을 발견할 수 있다. 기업에서 발행하는 레터에서 자기 회사를 좋게 평가하는 것은 당연하다고 쳐도, 무료 백신의 엔진이나 업데이트 속도 등에 대한 자료 없이 섣부르게 보안시장의 질적 저하를 우려한 것은 조금 경솔했다고 본다.

하지만 안철수 연구소의 입장에서 한 번 생각해 보자. 대한민국에서 유일한 백신 엔진은? V3이다. 홀로 대한민국 보안 시장을 지키는 입장에서 외산 엔진이 갑자기 물밀듯이 쏟아져 들어와 금세 시장을 장악하는 광경을 그저 바라만 보고 있을 수는 없을 것이다. 특히 이스트 소프트에서 개발한 알약의 경우 가벼운 실행 환경과 좋은 검색력을 소비자들에게 인정 받아 필자가 아는 사람들도 대부분 알약을 사용하고 있다. 그러면 V3는 대한민국 보안 시장을 고스란히 외산에 넘겨 주어야 하는 것인가? 안철수 연구소가 발행한 시큐레터 212호는, 시장이 외산 엔진의 손에 넘어가는 꼴을 보면서, 그래도 전문 백신 업체로서의 자존심은 지키겠다는 것으로 보인다.

시장은 효율성의 원리로 돌아간다. 하지만 국제 시장에서는 효율성도 중요하지만 약간의 비효율도 때로는 필요하다고 생각한다. 국산품 애용은 아무리 싼 외제가 있어도 우리 나라 산업의 부흥을 위해 우리 것을 사용하자는 운동이다. 효율을 거슬러 비효율을 택한 대표적인 예이지만, 결국 국내 산업 발전은 전체의 이익으로 돌아오기 때문에 전체적 효율은 증대될 수 있다. 필자는 본 문제도 이와 같은 시각에서 접근해야 한다고 생각한다. 이번에 V3가 외산 엔진에 자리를 뺏기고 시장을 잃는다면, 우리 나라의 개인 보안 시장은 끝이다. 어떤 산업이 100% 외국에 의존한다는 것은 매우 위험한 일이다. 특히 정보화 세계에서 날로 보안이 중요해져 가는 시점에서 국내 보안 업계가 무너지는 것은 그것이야말로 정보화 사회를 역행하는 일이 아닐 수 없다.

필자도 알약이나 PC 그린의 성능이 뛰어난 것은 알고 있다. 직접 사용해 보지는 않았지만 주위 분들이 이구동성으로 좋다고 하는 것은 분명히 무언가 메리트가 있기 때문일 것이다. 하지만 좋다고 모두가 아무 생각 없이 외산 엔진의 물결에 휩쓸려 버리면 국내 보안 업계는 죽는 것을 알아 주어야 할 것이다. 사용자의 지속적 리포트와 참여가 있어야만 발전할 수 있는 보안 시장이다. 국내 보안 업계를 버리지 않기를 필자도 이 글로 호소한다.

남은 이야기 1솔직히 가슴에 손을 얹고 생각해 보자. V3 엔진 무료화가 되기 이전 돈을 지불하고 백신을 사용해 본 적이 있는가? 대부분의 컴퓨터에 깔린 V3는 불법 복제판이다. 안철수 연구소는 땅 파서 돈 버는가? 돈이 있어야 연구도 하는 것이다. 성능을 논하기 전에 의식부터 재고하자.

남은 이야기 2필자가 보안 업계의 이야기에 열을 올리는 것은 사실 필자의 장래 희망이 정보보안전문가이기 때문이다. 백신 업계보다는 네트워크 보안 쪽에서 일하고 싶지만 어쨌든 보안 업계이기 때문에, 대한민국 보안 업계가 무너지는 모습이 가슴아프게 다가왔던 것이 이 글을 쓰게 된 동기가 되지 않았나 생각한다.

남은 이야기 3국산 무료 백신 '새싹'이 탄생한다고 한다. 자세한 정보는 여기 참조.



2008년 1월 19일 이후 작성된 모든 글에 대해서 퍼가는 것을 금지합니다.
퍼가고자 하시는 분은 링크를 달아 주시기 바랍니다.
Posted by Harry
블로그 방문자의 유입 경로의 대부분은 검색엔진이다. 필자는 Daum WebInside로 분석한 결과 유입 검색엔진에서 네이버가 약 75%로 1위를, 구글이 약 15%로 2위를 차지하고 있고 야후, 엠파스, 다음이 그 뒤를 잇고 있다. 국내 2위의 검색엔진인 다음과 성능으로는 최고를 자부하는 엠파스로부터의 유입이 왜 이렇게 적을까 고민하다가 다음과 엠파스에서 Harry's_Lab을 찾아보기로 하였다.

방문자 유입이 적은 데에는 이유가 있었던 것이었다. 어쩌다가 웹 페이지 검색 결과에서 노출되는 것 이외에 블로그 검색결과에는 필자의 글이 한 건도 노출되지 않았다. 네이버의 경우 블로그 검색결과 노출 신청이 따로 존재하지만 다음이나 엠파스의 경우 아무리 찾아도 신청하는 방법을 찾을 수 없어 직접 문의를 했다.

문의 내용블로그 검색 결과에 노출되고 싶습니다.

블로그 이름 : Harry's_Lab
블로그 주소 : http://harrys.co.kr/blog/lab
피드 주소 : http://harrys.co.kr/blog/lab/rss


그러자 며칠 후 다음과 엠파스에서 메일로 답변이 도착했다.

사용자 삽입 이미지

사용자 삽입 이미지

블로그 등록하는 다른 방법을 안내하지 않은 것으로 보아 원래 문의하여 신청하는 것이 옳은 방법이었는지도 모른다.

앞으로 다음과 엠파스가 방문자 유입에서 활약해 주길 바란다.


2008년 1월 19일 이후 작성된 모든 글에 대해서 퍼가는 것을 금지합니다.
퍼가고자 하시는 분은 링크를 달아 주시기 바랍니다.
Posted by Harry

네이버 검색을 시도한 순간 CSS가 로딩되지 않은 줄 알았다. 하지만 자세히 보니 전체적인 검색 페이지의 디자인이 새로워진 것이었다.

사용자 삽입 이미지


22일부터 25일까지 새로운 통합 검색 페이지를 체험하는 것인 것 같았다. 우측에 보면 새로운 통합 검색 페이지에 대한 사용자 의견을 보낼 수도 있다.

상당히 많은 부분이 바뀌었다. 가장 먼저 눈에 띄는 것은, 네이버만의 색깔을 잃었다는 것이다. 필자는 네이버의 초록색을 좋아했는데, 새 검색 페이지에서는 초록색이 거의 드러나지 않았다. 상단 로고와 검색창 테두리에만 초록색이 쓰였으며, 검색 메뉴나 다른 부분은 모두 은색으로 꾸며져 있었다.

또한 검색창이 하나의 줄을 차지하지 않고 로고 옆으로 붙으면서 상단 메뉴 부분의 크기가 굉장히 많이 줄었다. 덕분에 구글 이나 MSN Live Search 에서 느낄 수 있는 깔끔함(혹은 허전함)도 느껴졌다. 우측 상단의 바로가기 메뉴는 기존의 메뉴를 모두 삭제하고 '네이버', '메일', '카페', '블로그'만 남겨두었다. 가장 아쉬운 점은 '지식IN'이 삭제되었다는 것이다. 우측의 '더 보기' 버튼을 클릭하면 되기는 하지만, 네이버의 가장 큰 서비스 중 하나가 지식IN일텐데, 이를 기본 메뉴에서 삭제한 것은 조금 부적절하다고 본다.

전체적인 느낌은 '깔끔함'이다. 네이버도 이 부분에서 가장 많이 신경을 쓴 것 같고, 사용자가 느끼기에도 굉장히 깔끔해진 듯 하다. 하지만 네이버의 색깔을 잃어서인지, 조금은 허전하고, 뭔가 아쉽기도 하다. 아직은 시험단계인지 우측의 '실시간 인기검색어' 등의 컨텐츠도 제공되고 있지 않아서 허전함을 더한다. 조금 더 개선하여 멋진 검색 페이지를 선보여주기를 기대한다.


2008년 1월 19일 이후 작성된 모든 글에 대해서 퍼가는 것을 금지합니다.
퍼가고자 하시는 분은 링크를 달아 주시기 바랍니다.
Posted by Harry

필자는 지식IN에서 지식인 이용규정에 조금이라도 어긋나는 글을 보면 즉각 신고하는 편이다. 오늘도 지식IN을 서핑하다가 파일공유 사이트를 홍보하는 답변을 보고 신고를 하기 위해 '신고' 버튼을 눌렀다. 하지만 볼 수 있었던 것은 신고 창이 아닌, '페이지를 찾을 수 없습니다' 라는 에러 페이지였다. 순간 인터넷이 끊긴 것인가 하고 다른 사이트에 접속해 보았지만 접속은 원활히 잘 되었다. 네이버가 죽었나 싶어서 다른 네이버 페이지에도 접속해보았지만 별 문제를 찾을 수 없었다. 마지막으로 '신고' 버튼의 링크를 확인해 보았더니, 다음과 같은 링크로 연결되었다.

 javascript<x sharpei common_editor kin.naver.com http: target='_blank'>:go_report_answer('ING','1313','2985462','1');

네이버에서 처리하는 과정에 에러가 나서 주소 부분이 잘못 입력된 것이겠지 싶어 직접 자바스크립트를 실행하기로 했다. 주소창에 다음을 입력했다.

javascript:go_report_answer('ING', '1313', '2985462','1');

하지만, 신고 창의 '제목' 란과 '작성자 ID' 란은 공란이었다. 분명 제목과 작성자 ID가 떠야 할 터인데 말이었다. 이상하다 싶어 질문의 작성 날짜를 확인했다. 작성 날짜는 9월 18일로 되어 있었다. 바로 해당 디렉토리의 해결중 질문 DB를 뒤져보았다. 하지만 가장 오래 전에 작성된 질문이 9월 18일의 질문이었고, 더 이전의 글은 이미 '미해결'이나 '완료'로 넘어간 상태였다.

그 때 필자가 발견한 것은 광고 답변은 진짜 답변이 아닌 가짜 답변이었다는 것이다. 순간 섬뜩함을 느꼈다. 즉, 질문 페이지는 다음과 같았다.

사용자 삽입 이미지

'한글오류 긴급패치 다운로드' 부분이 파일공유 사이트로 연결되는 링크이다.


위쪽의 질문과 답변은 조작된 것이었고, 아래쪽에 하나 더 있는 질문부터가 진짜 질문과 답변이었다. 실제로 위쪽의 질문과 답변의 작성자 아이디에는 링크가 걸려 있지 않았으며, 답변 수도 실제 답변 수와 일치하지 않았다.

누가 어떻게 이런 짓을 했을까 하며 소스를 가만히 살펴 보았다. 신기한 것은 분명 광고 내용은 페이지의 가장 위쪽에 있는데, 소스 상에서는 광고 내용이 가장 밑에 있는 것이었다. 가장 밑에 있는 답변을 보았더니 아무 내용도 없었다. 수상한 일이었다.

사용자 삽입 이미지

확실히 어떻게 렌더링이 되는 것인가 하여 Firefox의 부가기능인 Firebug의 Element Inspector를 이용하여 구조를 살펴 보았다.

결과는 정말 이상했다. 소스상에서는 가장 아래쪽에 있는 셀의 내용(가짜 질문 및 답변)이 렌더링이 된 후에는 테이블의 바로 위에 와서 붙는 것이었다.

순간 브라우저의 렌더링 버그라는 생각이 들어 소스를 가만히 분석해 보았더니, 셀 안쪽이 다음과 같았다.

<td> <td> </tr> <div>가짜 질문 및 답변</div> </td>

중간에 <td> </tr>이라는, 구조에 어긋나는 태그가 들어 있었다. 이것이 버그를 유도하는 것일 것이라는 생각이 들어서 간단한 페이지를 작성해서 테스트를 해 보았다. 가로 세로 2개의 셀이 있는 테이블인데, 우측 하단의 셀 안에 <td></tr>의 태그를 넣은 것이었다. 결과는 놀라웠다.

사용자 삽입 이미지

보이는 결과와 같이, 우측 하단의 셀의 내용이 테이블 위쪽으로 나왔다.

결국, 가짜 질문과 답변은 소스만 있는, 그럴듯하게 보이는 것들일 뿐이고, 실제 광고의 작성자는 가장 아래의 답변을 작성한 사람이었던 것이다. 광고를 하는 사람은 가짜 답변의 작성자 ID를 조작하고 신고 링크를 무력화시킴으로써 좀 더 오랫동안 삭제당하지 않고, 진짜 자기 ID를 들키지 않을 수 있었을 것이다.

네이버 측도 이를 알고 있었던 것인지, 필자가 포스팅을 하려고 준비하는 순간 해당 답변을 삭제했다. 다행히도 원래 보고 있던 페이지를 닫지 않아 스크린샷을 찍을 수 있었다.




2008년 1월 19일 이후 작성된 모든 글에 대해서 퍼가는 것을 금지합니다.
퍼가고자 하시는 분은 링크를 달아 주시기 바랍니다.
Posted by Harry

광복절을 맞아 포털들이 메인 로고를 단장했습니다.

사용자 삽입 이미지

'R' 한가운데에 태극기를 단 네이버

사용자 삽입 이미지

'D' 위에 태극기를 꽂아 놓은 다음

사용자 삽입 이미지

무궁화가 피어있고 태극기가 휘날리는 파란닷컴. 애니메이션 효과가 돋보인다.

사용자 삽입 이미지

메인 로고 우측에 '8.15 광복절'이라고 써 놓은 네이트닷컴.


그리고 대망의... 구글!

사용자 삽입 이미지

펄럭이는 태극기의 모양과 로고를 조화시킨 구글

개인적으로는 구글의 로고가 가장 맘에 듭니다. 외국 기업임에도 불구하고 가장 신경을 많이 쓴 듯한 느낌이 나네요.

반면, 로고에 아무 짓(?)도 하지 않은 엠파스.

사용자 삽입 이미지


덧글 사실 우리 집에도 태극기는 달려 있지 않다. 태극기는 있으나 깃대가 실종된 관계로.



2008년 1월 19일 이후 작성된 모든 글에 대해서 퍼가는 것을 금지합니다.
퍼가고자 하시는 분은 링크를 달아 주시기 바랍니다.
Posted by Harry

구글의 한국어 검색 결과는 형편없다.

지난 번 글에서 구글이나 엠파스 같은 검색엔진이 성공하는 가장 좋은 방법은 사용자가 원하는 검색 결과를 보여주면 되는 것이라고 말했다. 따라서 구글이 한국에서 인기를 끌지 못하는 이유는 검색 결과가 형편없기 때문이라는 결론이 나온다. 혹자는 구글 화면이나 사용법이 국내 네티즌의 정서와 너무 다르기 때문이라고 말하는데 이것은 부차적인 요소다. 구글이 한국에서 인기를 끌지 못하는 첫 번째 요소는 지난번 칼럼에서도 지적한 것처럼 분명 검색 결과가 형편없기 때문이다.

그래서 지난 번의 구글 간담회 때 나는 미국 본사에서 나온 직원에게 “구글은 검색 결과가 형편없기 때문에 검색엔진으로 한국에서 성공할 수 없습니다”라고 잘라 말했다. 세계 최고 기술력을 가졌다고 생각하는 구글 직원으로서는 구글의 검색 결과가 형편없다는 말이이해되지 않겠지만 한국에서는 분명 형편없다. 마침 그때가 탤런트 장서희씨가 화제에 오르던 때라 ‘장서희 부은 얼굴’이라는 낱말로 국내 포탈과 구글의 검색 결과 차이를 설명해주고 구글이 한국어 문서 검색 결과에서 국내 포탈을 이길 수 없는 이유를 설명해줬다.

실제로 구글의 검색 결과가 얼마나 형편없는지 확인해보도록 하자. 구글 검색 창에 ‘장서희 부은 얼굴’을 입력하고 ‘이미지’ 찾기를 눌러 사진을 찾아보자. 구글은 한 장의 사진(image)도 찾지 못 한다. 검색 결과 점수를 매긴다면 빵점이다.

구글은 ‘장서희 부은 얼굴’로 한 장의 사진도 찾지 못 했다.

이번에는 네이버 검색 창에 ‘장서희 부은 얼굴’을 입력하고 ‘이미지’ 아이콘을 눌러 사진을 찾아보았다. 화면에 보이는 것처럼 장서희가 부은 얼굴로 나온 TV 프로그램 화면이 줄줄이 사탕처럼 보기 좋게 출력된다.

네이버에서 ‘장서희 부은 얼굴’로 검색하면 원하는 사진을 보여준다.

두 검색엔진의 검색결과를 비교해보면 더 이상 구글이 국내 포탈보다 뛰어나다는 말을 할 수 없을 것이다. 살펴본 것처럼 구글의 검색 결과는 빵점에 가까울 정도로 형편없다. 이러니 연예뉴스 자주 보는 내 아내가 구글을 사용할 리 없고, 온라인게임 좋아하는 내 아들이 구글을 사용할 리 없다. 물론 나도 장서희 사진을 찾을 때는 구글 대신 네이버나 국내 포탈을 이용한다.

구글 검색 결과가 형편 없는 이유, 국내 사이트들이 검색을 막았기 때문 그러면 세계 최강의 검색 기술을 가졌다는 구글이 왜 한국에서는 이렇게 형편없는 검색 결과를 보여줄까? 구글이 영문 검색 기술만 뛰어나고 한국어 검색 능력은 뒤떨어지기 때문일까? 아니다. 구글의 한국어 검색 능력은 분명 국내 포탈보다 뛰어나다. 구글의 검색 결과가 형편없는 이유는 국내 사이트들이 검색을 막고 있기 때문이다.

현재 국내에서 가장 많은 자료를 보유한 곳은 다음 카페다. 289만 명의 회원을 보유한 ‘장미가족의 태그교실’ 카페 하나만 뒤져도 각종 HTML, 자바스크립트 예제를 비롯한 HTML 관련 수많은 한국어 문서를 찾아낼 수 있다. 다음 카페에 이어 지식인과 블로그를 운영하는 네이버, 통(tong)과 싸이월드를 운영하는 네이트 등에 네티즌이 좋아하는 자료들이 축적되어 있을 것이다. 그런데 이들 사이트를 비롯하여 꽤 알려진 국내 사이트는 공통점이 하나 있다. 바로 검색로봇의 검색을 막고 있다는 것이다.

웹 사이트에서 robots.txt를 이용해 검색로봇의 검색을 막을 경우 검색로봇 규약에 의해 검색로봇은 검색을 하지 않아야 한다. 검색로봇 규약을 정하고 검색로봇 거부권을 행사하는 이유는 검색로봇에 의한 개인정보 유출의 위험을 막기 위함이다. 그런데 국내 대형 사이트는 검색로봇 규약을 자사의 자료 독점권 행사를 위해 사용하고 있다. 그래서 정보 알맹이(content)를 축적했다고 하는 곳은 대부분 검색로봇 거부권으로 검색을 막고 있다.

예를 들어 브라우저의 주소창에 ‘http://kin.naver.com/robots.txt’를 입력하고 살펴보자. 네이버 지식인의 루트 디렉토리부터 모든 자료에 대한 접근을 금지시키고 있음을 알 수 있다. 이번에는 ‘http://blog.naver.com/robots.txt’를 입력하고 살펴보자. 역시 네이버 블로그의 루트 디렉토리부터 모든 자료에 대한 접근을 금지시키고 있음을 알 수 있다. 이처럼 네이버는 네이버 지식인 게시판이나 네이버 블로그에 대한 로봇의 검색을 철저하게 막고 있다.

‘http://kin.naver.com/robots.txt’를 보면 네이버 지식인의 로봇 검색을 차단하고 있음을 알 수 있다.


‘http://blog.naver.com/robots.txt’를 통해 네이버 블로그도 로봇 검색을 차단하고 있음을 알 수 있다.

생각해보면 참으로 어이없는 상황이다. 네이버의 정체가 무엇인가? 다른 사이트 게시판을 검색해 그 결과를 보여주는 검색 사이트 아닌가?

자신은 남의 사이트 게시판과 문서를 뒤져서 그 자료를 네티즌에게 보여주면서 돈을 버는 기업이면서 정작 자신들의 게시판과 문서는 검색하지 말라니 이런 이율배반이 어디 있는가? 네이버가 국내 1위 포탈의 자리를 지키면서도 끊임없이 도덕적 비난에 시달리는 이유는바로 이처럼 근본부터 잘못된 철학 때문이다.

다음 카페도 마찬가지다. ‘http://cafe.daum.net/robots.txt’를 입력해보면 역시 루트 디렉토리부터 검색로봇의 검색을 차단하고 있다. 카페의 경우 회원용도 있지만 공개된 게시물도 많기 때문에 로봇 검색을 막으면 안 되는데, 다음은 일괄적으로 외부 검색을 차단하고 있는 것이다. 따라서 다음 역시 도덕적 비난에서 자유로울 수 없는 입장인 것이다. 네티즌이 질문하고 답을 올리는 공개 게시판과 블로그조차 막고 있는 곳이 국내 1, 2위 포탈이자 검색을 대문에 내세우는 곳이라니 이 얼마나 황당하고 부끄러운 일인가.

‘http://cafe.daum.net/robots.txt’에서 알 수 있는 것처럼 다음 카페도 로봇 검색을 차단하고 있다.

robots.txt을 준수하는 구글의 네이버 게시물 검색은 '꽝' 표준 규약을 잘 지키기로 유명한 구글이 로봇 규약을 어길 수는 없는 일이다. 그 결과 수 천 만 건의 자료가 있다는 네이버 지식인의 게시물은 구글에서 검색되지 않는다. 이는 ‘site’ 씨낱말(keyword)로 검색해보면 알 수 있다.

구글 검색창에 ‘site:dal.co.kr’을 입력하면 68,600개나 되는 문서를 검색해준다. 반면 ‘site:kin.naver.com’으로 검색하면 겨우 246개만 검색된다. 개인 홈페이지의 문서도68,600개나 검색해주는 구글이 네이버 지식인의 게시물은 겨우 246개만 검색해주는 것이다. 그리고 화면을 보면 알겠지만 요약문을 제공하는 ‘site:dal.co.kr’의 검색결과와 달리 ‘site:kin.naver.com’의 검색결과는 달랑 주소만 나온다. 이는 246개마저 정상적인 경로로 검색된 것이 아니라 다른 문서의 링크를 통해서 검색되었기 때문이다.

구글 검색창에 ‘site:dal.co.kr’을 입력하면 68,600개의 검색결과가 나온다.


구글 검색창에 ‘site:kin.naver.com’을 입력하면 246개의 검색결과만 나온다

이번에는 구글 검색창에 ‘블로그 site:dal.co.kr’을 입력해보았다. 내 개인 홈페이지에서만 16,900개나 되는 검색결과를 찾았다. 반면 ‘블로그 site:kin.naver.com’으로 검색하면 딱 한 개만 나온다.

구글 검색창에 ‘블로그 site:dal.co.kr’을 입력하면 16,900개의 검색결과가 나온다


구글 검색창에 ‘블로그 site:kin.naver.com’을 입력하면 딱 1개의 검색결과가 나온다.

살펴본 것처럼 구글은 개인 홈페이지인 ‘dal.co.kr’에서만 6만 건이 넘는 문서를 검색해주는데, 네이버 지식인의 게시물은 겨우 300개 미만으로 검색해주고 있다. 물론 이것은 네이버 지식인의 대문을 통해 들어가 검색한 것이 아니라 웹문서에 링크 된 주소에 의해 검색된 결과에 불과하다. 만약 구글이 robots.txt를 무시하고 검색했다면 수 백 만 건의 검색 결과가 표시되어야 할 것이다.

robots.txt를 막지 않고 싸우는 외국과 막고 싸우는 국내 포탈 외국 사이트는 어떨까? 구글이 인수한 세계 최대 블로그 사이트라는 블로거닷컴도 검색을 막고 있을까? ‘http://www.blogger.com/robots.txt’를 입력해 블로거닷컴의 로봇규약을 살펴봤다. 블로거닷컴은 회원의 개인정보나 덧글을 단 사람의 이메일주소 등이 노출되는 ‘http://www.blogger.com/profile-find.g’와 ‘http://www.blogger.com/comment.g’ 두 곳만 막고 나머지는 검색을 허락하고 있다.

회원 신상정보와 이메일이 포함되는 덧글 관련 내용만 로봇 검색을 막고 있는 블로거닷컴

때문에 구글 검색창에서 ‘blog site:blogger.com’으로 검색해보면 886,000개의 검색결과를 보여주며, ‘site:blogger.com’으로는 747만 건의 검색결과를 보여준다. 야후(www.yahoo.com)에서도 "blogger.com"으로 검색할 경우 약 2780만 건이라는 엄청난 수치를 보여준다.

'blog site:blogger.com’의 검색결과는 886,000개다.

지난 번 데니스 황이 국내에 들어왔을 때 인터뷰 한 내용 중에 다음과 같은 내용이 있다.

    아직 저희는 차단된 DB에 대해서는 가져올 수 없고...[줄임] 저희는 정보를 항상 최대한 많은 사람들에게 제공하려다 보니까, 유료였던 것들을 무료로 제공하는 경향이 있어요. 키홀(구글맵에 붙은 인공위성 사진 서비스), 피카사(포토 관리 프로그램)...유료였는데 저희가 가져다가 무료로, 혹은 반값으로 제공하죠. [줄임] 렉시스넥시스(LexisNexis)를 3만원 내고 본다. 왜? 수집해 주니까. 그럼 우리가 수집하면 공짜로 보여줄 수 있잖아.”- 유진닷컴(http://www.youzin.com/blog/archives/000355.html)

차단된 DB에 대해서는 정보를 가져오지 못하기 때문에 유료인 정보를 인수해 무료로 제공하고 있는 곳이 구글이다. 실제로 구글은 블로거닷컴, 피카사, 키홀을 비롯한 많은 기업을 사서 그들 기업이 가진 정보를 무료로 공개하고 있다. 덕분에 과거에는 유료였던 위성사진을 이제는 무료로 볼 수 있다. 여기에 공개API까지 제공해 구글의 자료를 누구나 자유롭게 가공해 사용할 수 있도록 하고 있다. 그래서 구글 지도를 이용한 하우징맵이나 지오블로거와 같은 서비스가 등장할 수 있는 것이다. 이처럼 게시물의 검색 허용을 당연히 허용할 뿐만 아니라 공개 API까지 제공하며 자료 활용을 돕는 외국 사이트와 네티즌이 올린 자료들마저도 막는 국내 검색 포탈의 철학적, 도덕적 차이는 너무 크다.

한국적인 기술력이 고작 robots.txt로 검색로봇 막는 것? 그런데도 국내 포탈 관계자나 경영진은 언론에 종종 “우리들은 한국적 기술력을 가지고 있기 때문에 구글이 들어와도 무섭지 않다”고 자신감을 표출한다. 그 한국적 기술력이 고작 robots.txt로 구글의 검색로봇을 막고, 네티즌으로 하여금 다른 곳에 있는 자료를 퍼오게 해서 자사 DB(Database)서버에 쌓는 것인가? 그것이 한국적 특성에 맞게 개발한 기술력이고 자신감의 원천인가?

이런 자세로는 개방성을 추구하는 인터넷 문화 흐름에 역행하기만 할 뿐 아니라, 자신도 모르게 기술력이 위축될 뿐이다. 현재 국내 검색 포탈의 검색 능력은 구글이나 야후에 비해 크게 뒤떨어진 상태다. 국내 검색 사이트의 웹문서 검색능력에 대해서는 다음 글에서 좀더 자세하게 다룰 것인데, 일단 결론만 말하자면 국내 검색 사이트의 웹문서 검색 능력은 몇 년 전 상황에서 한 걸음도 나가지 못하고 있다. 국내 포탈 사이트는 자사 서버 내의 DB 검색에 매달리고 있으며 그마저도 수 많은 인력이 편집해서 보여주고 있다.

서버 내의 자료는 누가 만든 것인가? 네티즌들이 만든 것이다. 그것도 여기저기 유료 무료 사이트에 올라온 고급 정보들을 펌질해서 올린 자료가 대부분이다. 이것이 한국적인 기술력이고 구글 정도는 상대할 수 있는 이유라고 말한다면 제 손으로 자기 눈 가리기 아닌가?

결국 싸움터는 웹 전체가 될 것이다 네이버 직원이 말한 것처럼 현실적으로 볼 때 구글이 한국 지사를 설립하고 수 백 명의 인력을 투입한다 하더라도 구글이 네이버나 다음을 이길 방법은 없다. 국내 사이트가 robots.txt로 구글 검색로봇의 검색을 막고 구글이 robots.txt를 준수하는 한, 가까운 시일 안에 구글이 검색엔진으로 한국에서 성공할 가능성은 극히 희박하다.

그러나 언제까지 사람들이 원하는 모든 자료가 네이버 지식인과 네이버 블로그에만 쌓여있을 것이라고 생각하는가? 우주처럼 광활한 웹의 세계에서 하나의 점에 불과한 네이버나 다음에 웹의 모든 자료가 쌓여 있을 것이라는 생각은 얼마나 어리석은 생각인가. 이미 고급자료는 점차 개인 블로그에 축적되는 흐름을 보이고 있다. 또한 언젠가는 네티즌도 원하는 자료를 찾기 위해 포탈의 그늘에서 벗어나 더 넓은 웹의 세계로 향할 것이며 그 날은 곧 다가올 것이다. 결국 현재의 편법은 시간을 벌어주는 역할에 불과하다.

그 시간이 지나면 검색로봇을 막고 불공정 경쟁을 하고 있는 국내 포탈은 도덕적 자신감 결여와 기술투자 부족의 칼날에 의해 상처를 입을 것이다. 그런 상처를 입지 않고 장기적인 경쟁력을 갖추려면 지금이라도 공정하게 경쟁하며 기술 축적에 힘써야 할 것이다. 구글의 검색 결과가 형편 없다고 자만할 때가 아니라, 구글의 검색 결과가 형편 없는 이유에 대해 부끄러워 하며 다가올 전면전을 치열하게 준비해야 하는 것이다. 결국 최종 싸움터는 네이버 사이트 안이 아닌 웹 전체가 될 것이며, 싸움의 승패 역시 웹 검색에서 판가름 날 것이다.

출처 : 매일경제 2006년 1월 6일 뉴스



2008년 1월 19일 이후 작성된 모든 글에 대해서 퍼가는 것을 금지합니다.
퍼가고자 하시는 분은 링크를 달아 주시기 바랍니다.
Posted by Harry