robot.txt 예제

On agosto 2, 2019 by adminmg

여기 내 웹사이트에 대 한 robot.txt 처럼: 그들은 사이트에 올 때마다, 검색 엔진 및 다른 웹 크롤링 로봇 (페이스 북의 크롤러 등, Facebot) robots.txt 파일을 찾기 위해 알고. 그러나 주 디렉토리 (일반적으로 루트 도메인 또는 홈페이지)와 같은 특정 한 곳에서만 해당 파일을 찾습니다. 사용자 에이전트가 www.example.com/robots.txt 방문하여 로봇 파일을 찾지 못하면 사이트가 없다고 가정하고 페이지의 모든 크롤링을 진행합니다(심지어 전체 사이트에서도). robots.txt 페이지가 example.com/index/robots.txt 또는 www.example.com/homepage/robots.txt 존재하더라도 사용자 에이전트가 발견하지 않으므로 사이트는 로봇 파일이 전혀없는 것처럼 처리됩니다. 하위 도메인이 있는 경우 자체 robots.txt 파일도 있는지 확인합니다. 예를 들어, training.webris.org 하위 도메인에는 자체 지침 집합이 있으므로 SEO 감사를 실행할 때 확인하는 것이 매우 중요합니다. 예를 들어 프린터 친화적인 버전의 페이지가 있는 경우 기술적으로 중복된 콘텐츠가 있는 경우 이 경우 봇에게 이러한 버전 중 하나(일반적으로 프린터 친화적인 버전) 중 하나를 크롤링하지 않도록 지시할 수 있습니다. 이 문서에 명시된 가이드라인뒤에는 Google의 모든 자동 크롤러가 있습니다. 에이전트가 사용자를 대신하여 URL에 액세스하는 경우(예: 번역, 수동으로 구독된 피드, 맬웨어 분석) 이 지침을 적용할 필요가 없습니다. 중복 콘텐츠가 포함된 페이지를 제외할 수 있습니다. 예를 들어 일부 페이지의 `인쇄 버전`을 제공하는 경우 중복 콘텐츠가 순위에 해를 끼칠 수 있으므로 Google에서 중복 버전을 색인화하는 것을 원하지 않을 수 있습니다. www.webris.com/blog/robot.txt 위치하는 경우 크롤러는 그것을 찾는 것을 귀찮게하지 않을 것이고 명령중 어느 것도 따르지 않을 것입니다. 특정 파일 형식의 파일 크롤링 허용 안 됨(예: .gif): 로봇 파일을 만드는 몇 가지 방법을 찾고 계십니까? 이 블로그 게시물은 몇 가지 대화형 예제를 안내합니다.

Yandex에 의해 지원 (그리고 구글에 의해, 일부 게시물에 의해 말에도 불구 하 고), 이 지시문은 검색 엔진 example.com 표시 하거나 www.example.com 표시 여부를 결정할 수 있습니다. 간단히 이렇게 지정하면 트릭이 됩니다: 아래 예제에서는 한 문자만 적게 사용하면 모든 검색 엔진이 전체 사이트를 크롤링할 수 있습니다. 예를 들어, 디즈니는 robots.txt 파일이 없는 것 같습니다: 특정 크롤러에 대해 한 그룹만 유효합니다. 크롤러는 여전히 일치하는 가장 구체적인 사용자 에이전트가 있는 그룹을 찾아 올바른 줄 그룹을 결정해야 합니다. 다른 모든 그룹은 크롤러에서 무시됩니다. 사용자 에이전트는 대/소문자를 구분합니다. 일치하지 않는 모든 텍스트는 무시됩니다(예: googlebot/1.2 및 googlebot*은 googlebot과 동일합니다). robots.txt 파일 내의 그룹의 순서는 관련이 없습니다. robots.txt 파일은 호스트의 최상위 디렉터리에 있어야 하며 적절한 프로토콜 및 포트 번호에도 액세스할 수 있어야 합니다. robots.txt에 대해 일반적으로 허용되는 프로토콜은 모두 URI 기반이며 Google 검색의 경우 특히 (예 : 웹 사이트 크롤링)은 “http”와 “https”입니다. http 및 https에서 robots.txt 파일은 HTTP 비조건적인 GET 요청을 사용하여 가져옵니다.

로봇이 웹 사이트 URL을 vists하고 싶어, http://www.example.com/welcome.html 말 : 그것은 이것을 좋아한다. 이렇게 하기 전에 먼저 http://www.example.com/robots.txt 확인 하 고 발견: Google 가능한 패턴 일치 구문 및 예제의 좋은 목록을 제공 여기. 예를 들어 “http://www.example.com/shop/index.html”의 경우 “/shop/index.html”을 제거하고 “/robots.txt”로 대체하고 “http://www.example.com/robots.txt”으로 끝납니다. 아래 예제는 robots.txt가 사이트를 크롤링하는 것을 “수신”하는 모든 검색 엔진을 차단합니다.

Comments are closed.