인터넷 상에 존재하는 웹봇들이 정보를 수집하여, 검색에 뜨게 끔 해주는 웹봇에 대한 자기 웹페이지 설정입니다.
즉, robots.txt 에서 어떻게 작성하느냐에 따라서 웹봇이 접근가능할지, 못할지가 결정됩니다.
지금부터 설정방법에 대해서 알아보도록 하겠습니다.
일단 "robots.txt" 파일을 생성해주세요.
파일을 열어서 텍스트 편집기에서 수정해주시면 됩니다.
User-agent: *
Allow: /
Disallow: /
Crawl-delay: 3600
위와 같은 메뉴 4개가 존재합니다.
User-agent: 봇 명칭
Allow: 허용
Disallow: 비허용
Crawl-delay: 재방문 시간제한
예제를 들어서 말씀드리겠습니다.
= 예제 1 =
User-agent: *
Allow: /
Disallow: /homepage/
Crawl-delay: 180
모든 봇에 해당
전체 접근 가능
/homepage/ 접근 불가능
3분에 한번씩만 접근 가능
= 예제 2 =
User-agent: *
Disallow: /
Allow: /homepage/
Crawl-delay: 180
모든 봇에 해당
전체 접근 불가능
/homepage/ 만 접근 가능
3분에 한번씩 접근 가능
= 예제 3 =
User-agent: Googlebot
Disallow: /
구글 봇에만 해당
전체 접근 불가능
= 봇 이름 =
구글 : Googlebot
네이버 : Naverbot
다음 : Daumoa
야후 : Yahoo! Slurp
Microsoft : Msnbot
Bing : Bingbot
위와 같이 설명드렸습니다.
이가 필요한 이유는, 검색 웹봇에 의한 검색으로 인한 페이지 노출이 되면 안되는 곳에는 꼭 !! 접근 불가능 처리를 해주셔야 합니다.
robots.txt 구문에 대해 자세히 알아보기
https://support.google.com/webmasters/answer/6062596?hl=ko&ref_topic=6061961
가장 간단한 형태의 robots.txt
파일은 user-agent
와 Disallow
두 개의 키워드를 사용합니다. user-agent는 검색 엔진 로봇(또는 웹 크롤러 소프트웨어)으로서 대부분의 사용자 에이전트는 웹 로봇 데이터베이스에 포함됩니다. Disallow
는 사용자 에이전트가 특정 URL에 액세스하지 못하게 하는 명령입니다. 반면 허용되지 않은 상위 디렉토리에 속한 하위 디렉토리인 특정 URL에 Google이 액세스할 수 있도록 하려면 제3의 키워드인 Allow
를 사용하면 됩니다.
Google에서는 Google 검색에서는 Googlebot, Google 이미지 검색에서는 Googlebot-Image 등 다양한 사용자 에이전트를 사용합니다. Google 사용자 에이전트는 대부분 Googlebot용으로 설정한 규칙을 따르지만, 이 옵션을 무시하거나 특정 Google 사용자 에이전트에 특정 규칙이 적용되도록 할 수도 있습니다.
키워드 사용을 위한 구문은 다음과 같습니다.
User-agent: [the name of the robot the following rule applies to]
Disallow: [the URL path you want to block]
Allow: [the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock]
이 두 행은 파일에서 단일 항목으로 간주되어, Disallow
규칙이 그 위에 지정된 user-agent에만 적용됩니다. 원하는 만큼 여러 개의 항목을 포함시킨 하나의 항목을 만들어 여러 개의 Disallow
행을 여러 개의 user-agent에 적용할 수도 있습니다. 아래 예처럼 별표(*
)를 표시하여 user-agent
명령이 모든 웹 크롤러에 적용되도록 설정할 수 있습니다.
User-agent: *
사이트맵을 Google에서 사용할 수 있도록 하기(Google에 사이트맵 제출)
사이트맵을 Google에서 사용할 수 있도록 하는 방법에는 두 가지가 있습니다.
- Search Console 사이트맵 도구를 사용하여 Google에 사이트맵을 제출
또는 robots.txt
파일 내 아무 위치에 다음 행을 삽입하여 사이트맵으로 연결되는 경로 지정:Sitemap: http://example.com/sitemap_location.xml
robots.txt 테스터로 확인 후 사용하시기 바랍니다.
다른 참고할만한 링크(영문) http://www.robotstxt.org
+추가
서버상의 문제로 유독 robots.txt만이 업데이트가 안되는 경우가 있을수도 있더군요.
분명히 파일은 변경이 되었는데 웹에서 보여지는것만이 원래상태에서 변함이 없는 경우가 있습니다.
확인을 해보고 변경사항이 웹에서 제대로 반영되지 않는다면 서버 관리자에게 문의하여 웹데몬을 리셋해달라고 부탁하셔야합니다.
'유틸리티, 정보 > WEB TIP' 카테고리의 다른 글
티스토리 블로그에 애드센스 달기 (9) | 2016.03.02 |
---|---|
ftp에 삭제되지않는 파일이나 폴더를 삭제하는 방법 (0) | 2016.03.02 |
주요한 포탈 개발자(developers) 페이지 링크 (0) | 2016.03.01 |
구글 애드센스, 유튜브계정으로 우회가입 (0) | 2016.02.20 |
Google Console 구글 써치콘솔, 구글 웹마스터도구에 사이트맵 등록시 일반 HTTP 오류: HTTP 403 오류 (금지됨) 해결법 (0) | 2016.02.18 |
윈도우7 로 텔넷(Telnet)접속하기 (0) | 2015.03.05 |
Scanstyles does nothing in Webkit/Firefox/Opera 알림창 제거하기 (0) | 2014.03.02 |
유니코드 특수문자 (0) | 2013.03.01 |
아이폰 거치대 (0) | 2010.11.02 |