기존 방법에 위치 인코딩을 추가함으로써 디코더는 흐름을 정규화하는 방법을 학습합니다.
이전 모델의 문제
실시간 시스템에 적합하지 않은 클러스터 기반 모델
SPADE와 같은 모델은 KNN 기반 모델입니다.
이러한 클러스터 기반 모델의 단점은 고차원 데이터에 대한 긴 테스트 시간입니다.
이 모델은 실시간 시스템에 적합하지 않습니다.
(PaDiM은 이 문제를 해결하기 위해 Mahalanobis Matrix를 만들었습니다.
(논문의 개념을 차용하여 Flow를 만든 것을 확인할 수 있습니다.
) 이후 PatchCore도 샘플링 및 기타 방법으로 테스트 시간을 줄이려고 했습니다.
)
이 논문은 Parallel Convolutional Method를 사용할 필요성을 언급합니다.
생성 모델의 단점(재구성 기반)
재구성 오차를 픽셀 또는 패치 단위로 계산하여 이상치 점수로 활용합니다.
단점은 정확한 데이터 가능성을 알 수 없다는 것입니다.
현지화에 적합하지 않은 모델
(DifferNet)은 NF를 기반으로 합니다.
현지화에는 적합하지 않지만(패치 단위에 관계없이 수치로 현지화를 감지할 수 없으며, 그래디언트 맵을 그려서 육안으로 확인해야 함) 이 개념을 확장하여 현지화에 적합하도록 합니다.
(조건부 정규화 과정)
집중하다
픽셀 수준 감지에 적합
실시간 시스템의 추론 속도
이론적 배경
하나. 마할라노비스 거리
(추론 시간을 줄이기 위해 PadiM으로 작성된 방법입니다.
)
이 방법은 CNN 분류기의 신뢰도 점수로 사용됩니다.
특정한 고유 벡터 z와 다변량 가우시안 분포(MVG) 사이의 거리이런 의미에서 이상 탐지에 사용됩니다.
z가 MVG 분포에서 멀리 떨어져 있으면 거리가 커집니다.
이 Mahalanobis 거리의 개념은 이미지 수준 감지 이 작업에 효과적인 것으로 나타났습니다.
2. 프로세스 프레임워크
표준화된 프로세스의 개념을 사용합니다.
모든 z에 대한 우도는 다음과 같이 계산됩니다.
여기서 u는 2제트 함수 f(역)를 통해 z에서 도착하는 표준 MVG U(z0으로 이해됨)의 샘플입니다.
마지막 항의 행렬 J는 가역 모델의 야코비 행렬입니다.
위 로그 우도 최대화방향의 확률적 경사하강법
손실 함수는 다음과 같이 정의할 수 있습니다.
모델 예측과 목표 밀도 간의 우도 차이의 예상 값이 손실입니다.
이를 위의 Mahalanobis 거리 공식에 대입하면 다음과 같이 표현할 수 있습니다.
Normalizing Flow를 이렇게 사용하면 임의의 z의 가능성또한 정확하게 찾을 수 있습니다.
마할라노비스 거리는 배포가 MVG로 제한되기 때문입니다.
(집이 필요하다)
이 외에도 **’조건부 정규화 과정’**더 컴팩트하지만 완전히 컨볼루션 병렬 아키텍처임을 강조합니다.
구조
1. 특징 추출 인코더
다중 스케일 피쳐 피라미드 풀링 형태의 피쳐 추출프로그램.
엔코더 사용 h(λ) 다른 의미 수준에서 기능 z 추출(그림 참조)
“인코더는 이미지 패치 x를 콘텐츠에 대한 관련 의미론적 정보를 포함하는 기능 벡터 z에 매핑합니다.
”
이 모델은 ImageNet 데이터를 사용하여 사전 훈련된 CNN 모델을 사용합니다.
k개의 풀링 레이어 각각에서 특징 벡터를 추출하여 총 k개의 특징 벡터를 얻는다.
레이어가 깊어질수록 수용 영역이 넓어지기 때문에 local-to-global 패치 정보를 얻을 수 있습니다.
(PaDiM은 인코딩 단계에서 추출된 특징 벡터의 크기를 조정하고 연결하지만 CFLOW는 디코딩 후 집계합니다.
따라서 추출된 특징 벡터는 각 디코더로 전달됩니다.
)
2. 우도 추정 디코더(코어)
추출된 특징 벡터의 로그 우도 추정을 위해 정규화 파이프라인에 넣는 과정입니다.
특징은 디코더에 입력되는 특징 외에 조건부 벡터도 함께 넣는다는 점이다.
(조건부 정규화 과정!
)
여기서 조건부 벡터는 위치 부호화를 사용하여 얻은 그림의 c를 의미합니다.
위치 인코딩에 대해 알아보려면 아래 블로그를 참조하세요.
(sin함수와 cos함수를 이용하여 벡터의 고유성을 장소연속 함수의 형태로 인코딩하는 기술로만 이해됩니다.
)
정리하면 정규분포는 총 k개의 고유벡터와 k개의 조건부 벡터를 각각 k개의 디코더에 넣어 f(inverse)를 학습함으로써 이루어진다.
학습은 Normal Normalized Flow 방식과 동일합니다.
손실 함수. z의 우도 최대화 = 가우시안 분포 형성 = 위의 손실을 최소화하는 학습.
모든 k 스케일에 대해 디코더를 훈련한 후 로그 우도는 0에서 1 범위로 정규화된 확률 형식으로 변환됩니다.
각각을 이미지와 동일한 크기로 업샘플링하고 모두 함께 집계하면 이상 점수 맵(분할)이 생성됩니다.
이점
- 실시간 시스템그것은 추론 시간에 데이터의 로그 우도를 적합하고 간단히 계산하는 가볍고 빠른 디코더 기능으로 끝납니다.
실험 결과에서 시간이 크게 단축되었음을 알 수 있습니다. - Representation Based Model과 비교하여 메모리 베이스(SPADE)를 저장하기 위한 공간이 필요하지 않으며 클러스터링 과정이 필요하지 않기 때문에 추론 시간이 단축됩니다.
(PaDiM도 Markov 행렬을 저장할 공간이 필요합니다) - 정확한 확률 계산
- 재구성 기반 모델과 달리 표준화 과정가능성을 계산하는 것이 직접 사용됩니다.
- 다중 스케일 기능 맵을 사용한 현지화에 적합합니다.
예상 한도/언급되지 않음
일치하지 않으면 어떻게 됩니까?
질문
- 그렇다면 프로세스에 위치 인코딩을 포함하면 어떤 이점이 있습니까? 현지화?
- 집계는 디코더의 끝에 있지만 이 프로세스는 이해되지 않습니다.
보다
위치 인코딩에 의한 조건부 정규화 파이프라인.
기존 방법에 위치 인코딩을 추가함으로써 디코더는 흐름을 정규화하는 방법을 학습합니다.