IT/인공지능 7

[논문] Improving Performance of Autoencoder-Based Network Anomaly Detection on NSL-KDD Dataset

연구 배경Internet에 연결된 device들이 많아짐에 따라 (IoT device) 보안 문제가 점차 대두되고 있어, 네트워크 보안을 위한 안정적 해결책이 요구된다.요즈음에는 여기에 AI의 활용이 제안되고 있으며, AutoEncoder 모델을 활용한 deep learning method는 거대한 네트워크 트래픽 샘플 상에서 anomaly를 탐지하는 task에 많이 사용되고 있다.AutoEncoder는 unsupervised feed-forward neural network이며, input의 reconstruction을 주요 목적으로 한다. 그리고 그 구조는 input - hidden - outptut layer로 대칭적이다. 또한 가장 적은 neuron을 가진 hidden layer를 latent s..

IT/인공지능 2024.05.31

[TF-IDF(Term Frequency-Inverse Document Frequency)] 계산 과정, 강점

TF-IDF의 계산 과정 ✅DTM(Document-Term Matrix): 각 문서들 (행)에서 각 단어들 (열)이 등장한 횟수가 담긴 행렬 여기서 문서를 d, 단어를 t, 문서의 총 개수를 n이라고 하겠다. 그러면... ✅tf(d,t): 특정 문서 d에서의 특정 단어 t의 등장 횟수. (= DTM의 각 셀의 값) ✅df(t): 특정 단어 t가 등장한 문서의 수. ✅idf(t): df(t)에 (대략) 반비례하는 수. ✅TF-IDF: TF와 IDF를 곱한 값.  TF-IDF의 강점 DTM에 비해 TF-IDF는 각 단어의 중요성도 반영하여 처리한다는 강점이 있다.TF의 역할: 어떤 단어가 특정 문서에서 많이 등장했다면 가중치를 높혀줌IDF의 역할: 어떤 단어가 많은 문서에서 등장했다면 가중치를 낮춰줌 ∵ d..

IT/인공지능 2024.05.12

[Naive Bayes Algorithm] 원리, 종류, 주의사항

Naive Bayes Algorithm의 원리 E2가 참일 때, E1도 참일 확률 (즉, 조건부 확률)은 아래와 같다. 위 원리를 이용하여,feature X가 만족되었을 때, class Ck일 확률은 아래와 같다.  이때, 보통 이 feature는 하나가 아니라 여러 개이므로, 이를 반영하면 아래와 같다.             eg) 날씨&온도&습도&바람에 따라 사람들이 테니스를 칠지/안칠지 예측하는 문제  여기서, Naive Bayes Algorithm은 각 feature가 독립적이라고 가정하므로, 위 식은 아래와 같이 바꿀 수 있다.아래가  Naive Bayes Algorithm의 최종 공식이다.   Naive Bayes Algorithm의 종류 ✅Gaussian Naive Bayes변수가 conti..

IT/인공지능 2024.05.11

[Object Detection / Recognition / Tracking] Feature Extraction 기법: SIFT, SURF, ORB

SIFT (Scale Invariant Feature Transform) detects distinctive keypoints(local features) or features in an image that are robust to changes in scale, rotation, and affine transformations We naturally understand that the scale or angle of the image may change, but the object remains the same. BUT machines have an almighty struggle with the same idea. It’s a challenge for them to identify the object..

IT/인공지능 2023.07.29

[AI] AI의 기초

1. Supervised Learning : 문제와 정답 제공 (feature & label) 1) Classification : 수많은 개/고양이 사진 입력함 (feature: 사진 & label: 개/고양이) -> 학습하고 특성 이해 -> 개/고양이일 확률 2) Regression ex) 키에 따른 신발 사이즈, 예지정비 2. Unsupervised Learning : feature는 있는데 label이 없음 -> 패턴/구조 발견, 그룹화 정확도에 한계가 있음 anomaly detect 1) Clustering 데이터가 아주 많은데 전부 라벨링하긴 어려울 경우 2) Dimensionality Reduction 3. Reinforcement Learning 보상 제공: 어떤 행위를 했을 때 보상을 제공..

IT/인공지능 2023.05.05