본문 바로가기

4-4. 2023-1 심화 스터디/다크 웹 크롤러 개발

[2023.05.06] 다크웹 크롤러와 빅데이터, 키워드, GUI

1. 빅데이터

1) 주제어(키워드) 빈도 분석

크롤링에 의해 수집된, 텍스트 자료에 포함된 특정 단어들의 빈도에 따라 주요 단어를 추출할 수 있다. 즉, 주제어 빈도 분석은 특정 문서 집단 내에서 자주 언급되는 주제어를 추출하고 이들이 언급되는 빈도에 따라 중요도를 분석하는 방법이며, 특정 단어가 수집된 총 문서에서 얼마나 자주 등장하는지를 나타내는 ‘단어 빈도(Term Frequency: TF)’로 단순하게 결정할 수 있다.

 

2) 주제어(키워드) 중요도 분석

단순하게는, TF 값이 큰 단어일수록 중요도가 높다고 판단할 수 있지만, 사실 TF 값이 큰 단어는 모든 문서에서 자주 등장하는, 즉 그 단어가 흔하게 등장한다는 것을 의미하는 ‘문서빈도(Document Frequency: DF)’ 값이 큰 단어일 수 있다. 이에, 중요도 높은 키워드 도출을 위해 TF-IDF라는 값을 사용한다. TF-IDF는 DF값의 역수인 IDF(역문서 빈도, inverse document frequency)에 단순단어 빈도(TF) 값을 곱한 것으로, 이처럼 모든 문서에서 자주 출현하는 상투어를 걸러내기 위함이며, 이는 단순한 단어의 빈도 처리가 아닌 단어의 출현 확률을 기준으로 출현 빈도를 재가공한 것이다.

즉, TF-IDF는 특정 문서에서의 단어 중요도를 나타내는 TF에 전체 문서와 관계된 단어의 중요도인 IDF를 곱한 값으로, 특정 문서 내에서 단어 빈도가 높을수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을수록 그 값이 커짐을 알 수 있다. 이러한 TF-IDF를 통해 언론기사나 댓글 텍스트 데이터 전체에서 공통적으로 혹은 무의미하게 반복적으로 출현하는 특정 단어를 제거할 수 있다.

 

3) 텍스트 마이닝(text mining)

텍스트 마이닝은 TF와 TF-IDF 분석을 발전시킨 것으로, 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용하여 정보를 추출하거나 연계성을 파악하는 기법이다. 웹 문서에서 특정 주제어와 매칭(matching)되는 단어를 찾아 수를 부여하는 인덱싱(indexing) 검색 기법에서 발전되어 왔으며, 점차 특정 주제어나 문맥(context)을 기반으로 데이터의 숨은 의미를 탐색하는 데 활용되고 있다. 텍스트 마이닝이 두드러지는 분야는 뉴스 기사 분석으로, 이를 활용하면 텍스트의 문맥에 따라 쟁점을 파악하고 텍스트 간 연계를 분석할 수 있다는 장점이 있다.

‘연관어 분석(association keyword analysis)’ 혹은 ‘의미망분석(semantic network analysis)’은 텍스트 마이닝의 한 종류이다. 관심 주제어를 포함한 대상 문서에서 함께 언급된 주제어를 추출하여 관심 주제어와 어떠한 토픽들이 연결되는 지 분석할 때 사용한다. 예컨대, 하나의 뉴스 기사에서 동시 출현한 용어의 쌍을 추출하고 전체 문서집합에서 주제어의 쌍별 발생 빈도와 연결 관계를 분석하면, 언론 기사 상의 주요 관심 토픽과 그 연계성의 변화를 추적할 수 있다. 또한 주제어를 특정 토픽 별로 분류한 후 연관어 분석을 실시하면 주요 쟁점 간의 관련성을 구조적으로 파악하기에 용이하다.

 

링크 참고:

1) https://news.samsungdisplay.com/22907/

 

원하는 정보만 수집한다! 크롤링과 빅데이터 분석 활용

빅데이터 분석의 사회적 필요성 현대사회에서의 빅데이터에 대한 지속적인 관심과 실험적인 시도들은 다변화된 현대 사회를 보다 정교하게 예측하고 효율적으로 작동하도록 정보를 제공하며,

news.samsungdisplay.com

2) https://koreascience.kr/article/JAKO201302255801918.pdf

 

 

 


2.키워드

1) 키워드 인코딩 방법 이해하기 : 다크웹에서 흔히 사용되는 인코딩 방법에는 Base64, URL encoding, HTML encoding 등이 있습니다. 이러한 인코딩 방법에 대한 이해를 바탕으로 키워드의 인코딩 형식을 확인할 수 있습니다.

 

2) 모든 인코딩 방법 검색 : 키워드를 검색할 때, 일반적인 문자열 검색 뿐만 아니라 모든 인코딩 방법에 대해 검색을 수행하는 것이 좋습니다. 예를 들어, "hello"라는 키워드를 검색할 때, "hello", "aGVsbG8=", "%68%65%6C%6C%6F" 등 모든 인코딩 된 형식에 대해 검색해야 합니다.

 

3) 키워드 딕셔너리 구축 : 대부분의 다크웹 크롤러는 검색어를 포함한 URL을 수집합니다. 이를 활용하여 검색어 딕셔너리를 구축한 후, 딕셔너리에 포함된 모든 검색어에 대해 인코딩된 형식을 추가하여 탐지할 수 있습니다.

 

4) 키워드 추적 : 키워드를 추적하고 이를 통해 다크웹에서 키워드가 어떻게 인코딩 되는지 모니터링할 수도 있습니다. 이를 통해 인코딩 된 키워드의 패턴을 파악하고, 이를 바탕으로 검색할 수 있습니다.

 

링크 참고 :

https://relatedwords.org/

 

Related Words - Find Words Related to Another Word

Related Words Related Words runs on several different algorithms which compete to get their results higher in the list. One such algorithm uses word embedding to convert words into many dimensional vectors which represent their meanings. The vectors of the

relatedwords.org

 

 

 


3.GUI

qt5(리눅스 GUI 툴)를 활용하여 프로그래밍하는 것이 안전측면에서 낫다.

 

링크 참고 :

1) https://m.blog.naver.com/ekbae98/221236960265

 

Qt 5 프로그래밍 - Qt Creator 사용법

Qt Creator- Qt 의 IDE (visual studio 와 같은 것) - Qt 의 프로젝트 Wizard 사용해서 생성가능 (...

blog.naver.com

 

 

2) https://s-engineer.tistory.com/23

 

Qt 설치 및 간단한 사용 예

2021.09.25 - [C, C++] - Qt6 설치 및 간단한 사용법 2021/02/13 - [C, C++] - Linux(Ubuntu) Qt5 Image Display - 리눅스(우분투) Qt5 이미지 디스플레이 2021/02/12 - [C, C++] - Linux(Ubuntu) Qt5 GUI Programming - 리눅스(우분투) Qt5 GUI

s-engineer.tistory.com

 

3) https://remocon33.tistory.com/187

 

[ Qt 프로그래밍 ] Qt5 설치하기

모르시는 분들을 위해 말하자면, Qt는 노르웨이 회사 트롤텍에서 개발한 크로스 플렛폼 프레임워크입니다. 크로스 플랫폼이란, 윈도우, 리눅스, OSX에서 모두 실행가능하다는 의미를 갖습니다. Qt

remocon33.tistory.com

 

'4-4. 2023-1 심화 스터디 > 다크 웹 크롤러 개발' 카테고리의 다른 글

재능기부_3  (0) 2023.06.28
재능기부_2  (0) 2023.06.28
재능기부_1  (0) 2023.06.28
QT5 & Tor 설치  (0) 2023.05.23
[2023.03.18] 다크웹에 대해서  (0) 2023.03.20