본문 바로가기

4-4. 2023-1 심화 스터디/다크 웹 크롤러 개발

[2023.03.18] 다크웹에 대해서

웹은 노출도에 따라 '서피스 웹', '딥웹', '다크엡'으로 나뉜다.

 

- 서피스 웹

일반적인 웹으로 검색엔진에 의해 색인된 콘텐츠

 

- 딥 웹

웹 크롤러에 탐지되지 않는 웹

일반 검색 엔진에 잡히지 않는 범주 자체를 모두 일컫는 포괄적인 개념

개인 이메일부터 의료기록, 회사 내부망 등 사적인 정보나 유료화 장벽으로 막혀있는 콘텐츠 등이 해당

ex) 클라우드 스토리지(구글 드라이브), 이메일 받음 편지함, 인터넷 뱅킹 포털, 구독 서비스 등

 

- 다크 웹

딥 웹에 포함되는 개념

다크넷에 존재하는 엡 콘텐츠

특별한 도구나 비밀번호가 있어야 접근할 수 있는 인터넷 영역 (소프트웨어나 설정 또는 인증 필요)

일반적인 검색 엔진으로는 검색 불가능

인터넷으로부터 접속자의 ip주소를 숨기는 웹 사이트로 구성된 인터넷 영역

브라우저 : 토르, 가디언 플젝트의 Orbot, Orfox..

 

다크웹 특징 : 폐쇄적인 성격

- 접속하기 위해서는 방문자의 ip주소를 숨기는 특별 프로그램이나 기술이 필요

- 모든 트래픽 암호화

 

다크 웹에 존재하는 일반적인 웹 사이트

- 과학 논문을 저장하고 무료로 제공하는 사이트

- 언론의 자유를 지향하는 독립 뉴스 사이트

- 모든 주제에 대해 토론할 수 있는 온라인 포럼

 

다크웹의 위험성

- 익명성을 유지하기 쉽기 때문에, 사기나 해킹 등의 범죄가 발생하는 경우 범죄자가 누구인지 특정하기 어려움

- 자신의 신원을 숨길 수 있다는 특징으로 인해 다양한 불법 행위 발생

 

아래와 같은 목적으로 다크웹이 쓰이고 있다.

- 불법 행위에 대한 토론&자료 공유

- 약물 및 기타 불법 의약품 판매

- 무기 판매

- 도난 신용카드 및 계좌 정보 판매

- 불법 서비스 제공

 

다크웹 크롤러 작동 방식)

1. 웹페이지의 상대적 중요성

웹 크롤러는 인터넨 전체를 크롤링 하는 것이 아니라, 중요한 정보가 포함될 가능성을 나타내는 요소인 다른 페이지 수, 페이지 방문자 수 등의 요소를 기준으로 먼저 크롤링 할 페이지 결정한다.

* 다른 웹 페이지에서 많이 언급하며 방문객이 많은 웹 페이지에는 권위 있는 고품질의 정보가 있을 가능성이 크므로, 검색 엔진이 색인을 작성하는 것이 중요하다.

 

2. 웹 페이지 재방문

웹 콘텐츠는 지속적으로 변경되거나 삭제되고 새로운 위치로 이동

웹 크롤러는 정기적으로 페이지를 다시 방문하여 최신 버전의 콘텐츠를 색인화

 

3. Robots.txt 요구사항

웹 크롤러는 Robots.txt 프로토콜을 기반으로 크롤링할 페이지를 결정하기도 한다.

-> 이는 엑세스하는 모든 봇에 대한 규칙을 지정하고, 규칙에서는 크롤링할 수 있는 페이지와 팔로우 할 수 있는 링크 정의

 

* 검색 엔진마다 스파이더 보 내의 전용 알고리즘 내에 이들 요인의 가중치를 다르게 설정한다. 따라서, 콘텐츠를 다운로드하고 색인화한다는 최종 목표는 같지만, 웹 크롤러의 작동 바익은 검색 엔진마다 차이가 있다.

'4-4. 2023-1 심화 스터디 > 다크 웹 크롤러 개발' 카테고리의 다른 글

재능기부_3  (0) 2023.06.28
재능기부_2  (0) 2023.06.28
재능기부_1  (0) 2023.06.28
QT5 & Tor 설치  (0) 2023.05.23
[2023.05.06] 다크웹 크롤러와 빅데이터, 키워드, GUI  (0) 2023.05.12