검색엔진에서 홈페이지 정보 누출 방지방법 - robot.txt > etc

본문 바로가기
사이트 내 전체검색

etc

검색엔진에서 홈페이지 정보 누출 방지방법 - robot.txt

페이지 정보

작성자 서방님 댓글 0건 조회 159회 작성일 06-11-20 17:02

본문

회사원 e씨는 최근 친구로부터 한 통의 전화를 받고 당황했다.

가족홈페이지에서 가족관계와 주소 및 휴대폰 번호 등이 모두 검색엔진에 나오더라는 것이다. 파일은 안전할 줄 알고 웹페이지에 올려놓았던 것이 화근이었다.

최근 들어 웹 검색엔진의 성능이 과거에 비해 월등히 향상되면서 구글(Google) 등 일부 검색엔진에서는 HTML로 작성된 웹페이지의 내용은 물론 웹사이트에 올려놓은 PDF나 DOC 같은 문서파일 내용까지도 검색이 가능해지고 있다. 지난해 5월 한 유선방송사업자의 웹사이트에서 고객 6000여명의 개인정보 명단이 인터넷 검색엔진을 통해 유출된 것도 바로 이런 케이스.

특히 가족·동창회·동아리 홈페이지 등은 주소록이나 회원근황 파일을 자료실 등에 올려놓은 경우가 비일비재해 검색엔진을 통한 개인정보 유출위험도 증가하고 있다.

이에 따라 검색엔진 전문가들은 정보유출을 방지하기 위한 일반 홈페이지 운영자들의 각별한 주의와 기술적인 대비책 마련이 필요하다고 지적한다.

일차적인 조치로는 ‘인터넷 검색엔진 배제표준(Robots Exclusion Protocol)’을 적용하는 것이다. 인터넷 검색엔진 배제표준이란 보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹페이지를 작성하는 방법을 기술한 국제기술표준이다. 모든 검색로봇이 이 표준을 따르지는 않지만 일반 웹사이트 개발자들이 손쉽게 적용할 수 있어 이용이 확산되고 있다.

서버관리자가 웹페이지 HTML 작성시 맨 위에 검색로봇을 배제한다는 의미의 ‘File:robots.txt’, ‘User-agent: *’, ‘Disallow: /’ 등을 적어놓으면 검색로봇의 검색 대상에서 제외된다. 일반 웹페이지에서도 와 같은 메타태그를 입력하면 검색을 피할 수 있다.

물론 배제표준 적용시 검색엔진을 통한 홈페이지 광고의 가능성마저 차단될 수 있으므로 표준적용시 옵션을 신중히 살피고 유출되면 곤란한 정보가 있는 페이지에 대해서만 선별해 적용하는 세심함도 요구된다.

이와 함께 이런 표준을 무시하고 개발되는 악성 검색엔진을 막으려면 이 배제표준과 함께 ‘로그인(Login)’을 동시 적용해야만 한다. 회원으로 등록한 사용자가 로그인을 해야만 해당 파일에 접근할 수 있도록 함으로써 파일 내용이 검색로봇 등에 바로 노출되지 않도록 하는 방법이다. 지난해 개인정보분쟁조정위원회에 접수된 피해구제 신청건수 중 대다수가 사용자 인증기능의 미비에 의해 비롯되고 있는 점만 보더라도 필수적인 조치다.

특히 초기화면이나 게시판 중 일부 페이지에만 적용되도록 해서는 원천적인 정보유출을 차단하기 어렵고 웹페이지 전체에 걸쳐 로그인 기능이 철저히 작동되도록 해야만 한다는 것이 전문가들의 한결 같은 지적이다.

이와 관련 다음커뮤니케이션의 곽기봉 검색기술팀장은 “일반 홈페이지 개발자들이 검색엔진의 작동방식을 잘 모르는 탓에 중요한 정보가 검색엔진을 통해 무방비로 유출되곤 한다”며 “인터넷 검색엔진 배제표준은 적용하기 손쉬우면서도 차단효과가 뛰어나므로 일반에 널리 확산될 필요가 있다”고 강조했다.

 


---------------------------------------------------------------------------------------

대처법

구글의 강력한 긁어가기식 로봇 검색으로 울산지역 ㅌ 케이블방송의 가입자현황이 담긴 파일이 유출되는 사고가 있었습니다. 위 글을 읽으니 당시 사건이 기억나는군요

구글이나 네이버가 웹서버들의 인증이 안걸린 디렉토리들을 거의 다 뚫고들어오기때문인데요, 검색어로 "관리자모드"나 "회원명단" 등으로 검색해보면 심심치않게 개인정보들이 나타납니다.

PDF나 XLS 검색은 물론이고 PDF를 HTML로 만들어서 보여주기도합니다.

주민번호가 담긴 신경외과협회 회원명단이나 포항시 공무원정보 주민번호등도 엄청나게 나타나서 이런 긁어가기식의 검색 로봇을 막는 방법을 찾아보았고 다시 소개합니다.

웹사이트 wwwroot 루트디렉토리에  robots.txt 파일을 하나 만듭니다.

내용에

User-agent: *
Disallow: /

라고 하시면 모든 긁어가기 검색에서 제외됩니다.


To allow all robots complete access (몽땅 긁어가기 허락)
User-agent: *
Disallow:

Or create an empty "/robots.txt" file. (빈파일 만들기로 해도 됨)

To exclude all robots from part of the server (일부분 긁어가기 제외)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

To exclude a single robot  (배드봇 검색로봇만 긁어가기 제외)
User-agent: BadBot
Disallow: /

댓글목록

등록된 댓글이 없습니다.

Total 143건 8 페이지
게시물 검색

회원로그인

접속자집계

오늘
117
어제
84
최대
1,347
전체
154,488
Latest Crypto Fear & Greed Index

그누보드5
Copyright © 서방님.kr All rights reserved.