4-4. 2023-1 심화 스터디/다크 웹 크롤러 개발

재능기부_1 Where darkness and light intersect, that's the world of the Isly Dark Web. A isly's beautiful ice and the anonymity of the dark web meet to explore the world of darkness and secrecy. These two worlds open up to us unknown possibilities. The Isly Dark Web Crawling game is the conduit that connects these two worlds. The crawler guards the passage, manipulates the flow of information, and tracks tr..
QT5 & Tor 설치 사용 환경 : Ubuntu 설치 프로그램 : Tor(다크웹), QT5(QUI 생성 프로그램) ● Tor 설치 토르 웹사이트에서 다운받는다. https://www.torproject.org/projects/torbrowser.html - 터미널에서 압출을 해제한다. tar -xvJf tor-browser-linux64-12.0.6_ALL.tar.xz - tor-browser 폴더 안으로 경로를 설정하고, 'start-tor-browser.desktop'을 실행시킨다. cd Downloads/tor-browser ./start-tor-browser.desktop - 토르가 자동적으로 실행된다. - Tor에 연결하게 되면, 다크웹 사이트인 Tor를 이용할 수 있게 된다. ● Qt5 설치 다크웹과 마찬가지로 관..
[2023.05.06] 다크웹 크롤러와 빅데이터, 키워드, GUI 1. 빅데이터 1) 주제어(키워드) 빈도 분석 크롤링에 의해 수집된, 텍스트 자료에 포함된 특정 단어들의 빈도에 따라 주요 단어를 추출할 수 있다. 즉, 주제어 빈도 분석은 특정 문서 집단 내에서 자주 언급되는 주제어를 추출하고 이들이 언급되는 빈도에 따라 중요도를 분석하는 방법이며, 특정 단어가 수집된 총 문서에서 얼마나 자주 등장하는지를 나타내는 ‘단어 빈도(Term Frequency: TF)’로 단순하게 결정할 수 있다. 2) 주제어(키워드) 중요도 분석 단순하게는, TF 값이 큰 단어일수록 중요도가 높다고 판단할 수 있지만, 사실 TF 값이 큰 단어는 모든 문서에서 자주 등장하는, 즉 그 단어가 흔하게 등장한다는 것을 의미하는 ‘문서빈도(Document Frequency: DF)’ 값이 큰 단어일..
[2023.03.18] 다크웹에 대해서 웹은 노출도에 따라 '서피스 웹', '딥웹', '다크엡'으로 나뉜다. - 서피스 웹 일반적인 웹으로 검색엔진에 의해 색인된 콘텐츠 - 딥 웹 웹 크롤러에 탐지되지 않는 웹 일반 검색 엔진에 잡히지 않는 범주 자체를 모두 일컫는 포괄적인 개념 개인 이메일부터 의료기록, 회사 내부망 등 사적인 정보나 유료화 장벽으로 막혀있는 콘텐츠 등이 해당 ex) 클라우드 스토리지(구글 드라이브), 이메일 받음 편지함, 인터넷 뱅킹 포털, 구독 서비스 등 - 다크 웹 딥 웹에 포함되는 개념 다크넷에 존재하는 엡 콘텐츠 특별한 도구나 비밀번호가 있어야 접근할 수 있는 인터넷 영역 (소프트웨어나 설정 또는 인증 필요) 일반적인 검색 엔진으로는 검색 불가능 인터넷으로부터 접속자의 ip주소를 숨기는 웹 사이트로 구성된 인터넷 영..