본문 바로가기

일상

색인이 생성되었으나 robots.txt에 의해 차단됨 이해하고 해결하기 !

반응형


꼭 ! 차근차근 읽어보셔야 티스토리,네이버 등등 블로그 운영에 대한 이해가 자리 잡힙니다!

어렵게 설명해놓지 않았으니 천천히 읽어보시고 이 문제점만을 해결한다는데에 그치지 말고

해당 관련된 또다른 문제점에 대해 쉽게 대처해 나갈 수 있습니다!



티스토리 계정을 만들고 

글을 열심히 쓰다보니 구글에서 메일이 한통 날라왔다.








구글 서치콘솔 ? 나의 티스토리에 새로운 적용

범위의 문제가 발견 되었다고한다.


나에게 온 메일을 클릭해보니 서치콘솔에서 새로운 문제1개의 영향을 받은것으로 보인다고 한다.

주요 경고 (최대5개) 뭔가 모르게 내가 뭘 잘못 한것같은 느낌이다.


뭔지 몰라도 이 메일의 요점은 내 사이트에서 발견된 경고는 다음과 같다.


색인이 생성되었으나 robots.txt 의해 차단됨


적용 범위 문제 해결하기를 눌러본다.




이런 화면이 나오는데 아래쪽 두개의 링크가 뭔가 잘 못 되었다고 한다. 

이와 같은 경우 아랫쪽에 보면 


https://able-do.tistory.com/admin/skin/edit/

https://able-do.tistory.com/admin/entry/post/


이렇게 두개의 링크가 나오는데 아마 이쪽에서 문제가 있는 것 같다.



여기서 잠깐!

아마 처음 티스토리나 네이버 등등 블로그를 처음 운영하시는 분들이라면

생소한 단어일 것이다. 위의 문제점 처럼

 

색인이 생성되었으나 robots.txt 의해 차단됨


 robots.txt ? 색인? 


먼저,

모든 검색엔진에는 웹페이지를 훑어보는 로봇이 존재해 있다.

보통 구글은 크롤러(구글봇) 라고 지칭하는데 이 구글 봇이 

웹사이트에 있는 방대한 량의 컨텐츠, 이미지, 문서, 사이트 등등

공개적으로 사용 할 수 있는지, 페이지에 문제는 없는지 등등

구글웹마스터도구의 가이드 기준을 바탕으로 분류작업을 

한다고 보면된다. 이렇게 분류된 페이지는 구글 검색결과에 노출 된다.

이런작업을 크롤링 이라고 생각하면 된다.

이런 크롤링을 하며 분류한 데이터를 구글색인에 저장 한다.

한마디로 웹상의 방대한 자료들을 정리하여 목록화 시키는 것.


왜?

크롤링 작업을 하지 않으면 너무 많은 자료들이 웹상에

존재하기에 사용자가 원하는 답을 정확하고 빠르게 제공하기가

어렵다. 그리하여 구글봇이 지금 현재도 크롤링 하며 웹상의

자료들을 미리 색인(목록화) 하여 검색하는 사용자가 정확하고

빠르게 찾을 수 있도록 하는 것이다.


그렇다면,

여기서 robots.txt 파일이 하는일이 뭐냐?

내가 가지고 있는 홈페이지 및 사이트에 봇들이 크롤링을 할때

수집할 수 있는 페이지나 수집 할 수 없는 페이지들을 로봇에게

명령하는 파일 이다.

한마디로 내 페이지를 크롤링 하려는 로봇에게 

'이 페이지는 수집해도 좋아'

또는, '여긴 수집 할 수 없어'

이렇게 봇에게 지시를 내리는 

파일이라고 생각하시면 쉽다.


자 이제 글을 다시 한번 보면


색인이 생성되었으나 robots.txt 의해 차단됨


풀어보면 해당 웹사이트 주소를, 

우리 구글봇이 너의 페이지를 우리 구글데이터에 색인 했어,

그런데 robots.txt 라는 명령어의 의해 차단 당했어.


페이지가 어떤 페이지 인지 수집을 했지만 차단을 당했다?

그래도 뭔가 이해가 어렵다. 

(이 부분을 이해하려면 조금더 깊이 들어갈 필요가 있는데,

간략히 설명드리자면 robots.txt에 의해 봇의 수집이 차단

되더라도, 그 페이지에 있는 앵커텍스트나 url을 통해 해당

페이지에  연결되어 있는 외부사이트의 색인을 수집할 경우도 있다.

아마 이러한 부분에서 봇의 수집을 차단했지만, 페이지에 있는

다른 링크를 수집을 한 경우가 아닐까라고 생각한다.)  


그런데 문제되는 사이트를 확인해보시면 

조금더 이해하기 쉽다.

 

https://able-do.tistory.com/admin/skin/edit/

https://able-do.tistory.com/admin/entry/post/


구글 서치콘솔에서 제시한 나의 문제되는 웹사이트 주소다.

뒤에보면 /admin 이라는 주소가 붙는다.


그렇다 티스토리에서 관리자의 페이지는 티스토리의 고유권한이기 때문에

봇들이 함부러 드나들지 못한다. 드나들었다간 티스토리사에 보안에 중요한 정보를 

모두 수집해 가기 떄문일 것이다.

그렇기에 모든 검색포털 사이트의 관리자 권한은 일반적인 봇들이 들어오지못하게

robots.txt 라는 명령어를 써 차단 시켜 놓았다고 보면된다. 


구글 서치콘솔에서 문제되는 사이트를 확인해서 

사이트 주소의 뒤에 /admin 또는 /manage 라는 단어가 붙어있다면

티스토리의 관리자 페이지기 때문에 크게 신경을 쓰실 필요가 없다.


이문제를 해결하려한다면, 

이와 같은 문제는 티스토라사의 고유 권한 이기 때문에 robots.txt 를 우리가 수정할수 없기에

구글 서치콘솔에서는 종종 이런 안내사항을 우리에게 보내올 것이다.

만약 문제되는 사이트가 위의 관리자 페이지가 아니라면 다른 문제가 

발생한거니 그 사이트에 맞는 문제점을 확인하여 해결 해나가야

구글에 최적화를 시킬 수 있으니 필히, 해결 해 나가시길 바란다.



반응형