본문 바로가기

지도학습/얼굴분석

[ML]Haar Cascade classifier

Rapid Object Detection using a Boosted Cascade of Simple Features

간단한 기능의 향상된 캐스케이드를 사용한 신속한 물체 감지

 

Abstract

This paper describes a machine learning approach for visual object detection which is capable of processing images extremely rapidly and achieving high detection rates. This work is distinguished by three key contributions. The first is the introduction of a new image representation called the “Integral Image” which allows the features used by our detectorto be computed very quickly. The second is a learning algorithm, based on AdaBoost, which selects a small number of critical visual features from a larger set and yields extremely efficient classifiers[6]. The third contribution is a method for combining increasingly more complex classifiersin a “cascade” which allows background regions of the image to be quickly discarded while spending more computation on promising object-like regions. The cascade can be viewed as an object specific focus-of-attention mechanism which unlike previous approaches provides statistical guarantees that discarded regions are unlikely to contain the object of interest. In the domain of face detection the system yields detection rates comparable to the best previous systems. Used in real-time applications, the detector runs at 15 frames per second without resorting to image differencing or skin color detection.  

이 논문에서는 이미지를 매우 빠르게 처리하고 높은 감지율을 달성할 수있는 시각적 객체 감지를위한 머신 러닝 접근 방식을 설명합니다.

이 작업은 세 가지 주요 공헌으로 구별됩니다.

 

첫 번째는 "Integral Image"라는 새로운 이미지 표현을 도입하여 탐지기가 사용하는 기능을 매우 빠르게 계산할 수 있도록 합니다.

두 번째는 AdaBoost를 기반으로하는 학습 알고리즘으로, 더 큰 집합에서 소수의 중요한 시각적 특징을 선택하고 매우 효율적인 분류기를 생성합니다 [6]. 세 번째 기여도는 이미지의 배경 영역을 빠르게 폐기하고 유망한 객체와 유사한 영역에 더 많은 계산을 할애 할 수있는 "계단식"에서 점점 더 복잡한 분류기를 결합하는 방법입니다.

 

캐스케이드는 이전 접근 방식과 달리 폐기된 영역이 관심 대상을 포함하지 않을 가능성이 있다는 통계적 보장을 제공하는 객체 별 관심 집중 메커니즘으로 볼 수 있습니다.

얼굴 감지 영역에서 시스템은 이전 최고의 시스템과 비교할만한 감지율을 제공합니다.

실시간 애플리케이션에 사용되는이 감지기는 이미지 차이나 피부색 감지에 의존하지 않고 초당 15 프레임으로 실행됩니다.

 

1.Introduction

This paper brings together new algorithms and insights to construct a framework for robust and extremely rapid object detection. This framework is demonstrated on, and in part motivated by, the task of face detection. Toward this end we have constructed a frontal face detection system which achieves detection and false positive rates which are equivalent to the best published results [16, 12, 15, 11, 1]. This face detection system is most clearly distinguished from previous approaches in its ability to detect faces extremely rapidly. Operating on 384 by 288 pixel images, faces are detected at 15 frames per second on a conventional 700 MHz Intel Pentium III. In other face detection systems, auxiliary information, such as image differences in video sequences, or pixel color in color images, have been used to achieve high frame rates. Our system achieves high frame rates working only with the information present in a single grey scale image. These alternative sources of information can also be integrated with our system to achieve even higher frame rates.

이 문서는 새로운 알고리즘과 통찰력을 결합하여 강력하고 매우 빠른 물체 감지를위한 프레임 워크를 구성합니다.

이 프레임 워크는 얼굴 감지 작업에 대해 시연되고 부분적으로 동기가 부여됩니다.

이를 위해 우리는 가장 잘 발표 된 결과에 해당하는 탐지 및 위양성률을 달성하는 정면 얼굴 탐지 시스템을 구축했습니다 [16, 12, 15, 11, 1].

이 얼굴 감지 시스템은 얼굴을 매우 빠르게 감지 할 수 있다는 점에서 이전 접근 방식과 가장 분명하게 구별됩니다.

384 x 288 픽셀 이미지에서 작동하는 얼굴은 기존 700MHz Intel Pentium III에서 초당 15 프레임으로 감지됩니다.

다른 얼굴 감지 시스템에서는 비디오 시퀀스의 이미지 차이 또는 컬러 이미지의 픽셀 색상과 같은 보조 정보를 사용하여 높은 프레임 속도를 달성했습니다. 우리 시스템은 단일 그레이 스케일 이미지에있는 정보로만 작동하는 높은 프레임 속도를 달성합니다.

이러한 대체 정보 소스를 시스템과 통합하여 더 높은 프레임 속도를 얻을 수도 있습니다.

 

There are three main contributions of our object detection framework. We will introduce each of these ideas briefly below and then describe them in detail in subsequent sections.

물체 감지 프레임 워크에는 세 가지 주요 기여가 있습니다.

아래에서 이러한 각 아이디어를 간략하게 소개 한 후 다음 섹션에서 자세히 설명합니다.

 

The first contribution of this paper is a new image representation called an integral image that allows for very fast feature evaluation. Motivated in part by the work of Papageorgiou et al. our detection system does not work directly with image intensities [10]. Like these authors we use a set of features which are reminiscent of Haar Basis functions (though we will also use related filters which are more complex than Haar filters). In order to compute these features very rapidly at many scales we introduce the integral image representation for images. The integral image can be computed from an image using a few operations per pixel. Once computed, any one of these Harr-like features can be computed at any scale or location in constant time.

이 논문의 첫 번째 기여는 매우 빠른 기능 평가를 허용하는 통합 이미지라는 새로운 이미지 표현입니다.

부분적으로 Papageorgiou et al. 우리의 감지 시스템은 이미지 강도와 직접적으로 작동하지 않습니다 [10].

이 저자들처럼 우리는 Haar Basis 기능을 연상시키는 기능 세트를 사용합니다 (Haar 필터보다 더 복잡한 관련 필터도 사용합니다).

이러한 특징을 여러 스케일에서 매우 빠르게 계산하기 위해 이미지에 대한 통합 이미지 표현을 도입합니다.

“Integral Image”는  픽셀당 몇 가지 작업을 사용하여 이미지에서 계산할 수 있습니다.

일단 계산되면 이러한 Harr 유사 기능 중 하나는 일정한 시간에 모든 규모 또는 위치에서 계산할 수 있습니다.

 

The second contribution of this paper is a method for constructing a classifier by selecting a small number of important features using AdaBoost [6]. Within any image subwindow the total number of Harr-like features is very large, far larger than the number of pixels. In order to ensure fast classification, the learning process must exclude a large majority of the available features, and focus on a small set of critical features. Motivated by the work of Tieu and Viola, feature selection is achieved through a simple modification of the AdaBoost procedure: the weak learner is constrained so that each weak classifier returned can depend on only a single feature [2]. As a result each stage of the boosting process, which selects a new weak classifier, can be viewed as a feature selection process. AdaBoost provides an effective learning algorithm and strong bounds on generalization performance [13, 9, 10].

이 논문의 두 번째 기여는 AdaBoost를 사용하여 소수의 중요한 기능을 선택하여 분류기를 구성하는 방법입니다 [6].

이미지 하위 창 내에서 Harr 유사 기능의 총 수는 픽셀 수보다 훨씬 큽니다.

빠른 분류를 보장하려면 학습 프로세스에서 사용 가능한 기능의 대부분을 제외하고 중요한 기능의 작은 집합에 집중해야합니다.

Tieu와 Viola의 작업에 의해 동기가 부여된 특징 선택은 AdaBoost 절차의 간단한 수정을 통해 달성됩니다.

약한 학습자는 반환된 각 약한 분류기가 단일 기능에만 의존 할 수 있도록 제한됩니다 [2].

결과적으로 새로운 약한 분류기를 선택하는 부스팅 프로세스의 각 단계는 기능 선택 프로세스로 볼 수 있습니다.

AdaBoost는 효과적인 학습 알고리즘과 일반화 성능에 대한 강력한 경계를 제공합니다 [13, 9, 10].

 

The third major contribution of this paper is a method for combining successively more complex classifiers in a cascade structure which dramatically increases the speed of the detector by focusing attention on promising regions of the image. The notion behind focus of attention approaches is that it is often possible to rapidly determine where in an image an object might occur [17, 8, 1]. More complex processing is reserved only for these promising regions. The key measure of such an approach is the “false negative” rate of the attentional process. It must be the case that all, or almost all, object instances are selected by the attentional filter.

이 논문의 세 번째 주요 공헌은 이미지의 유망한 영역에주의를 집중함으로써 검출기의 속도를 극적으로 증가시키는 캐스케이드 구조에서 연속적으로 더 복잡한 분류기를 결합하는 방법입니다.

주의 집중 접근 방식("focus of attention approaches")의 개념은 이미지에서 물체가 발생할 수 있는 위치를 신속하게 결정할 수 있다는 것입니다 [17, 8, 1].

더 복잡한 처리는 이러한 유망한 지역에만 예약되어 있습니다.

이러한 접근 방식의 주요 척도는 주의력 과정의 "거짓 부정적"(“false negative”)비율입니다.

주의 필터(attentional filter)에 의해 모든 또는 거의 모든 개체 인스턴스가 선택되는 경우이어야합니다.

 

We will describe a process for training an extremely simple and efficient classifier which can be used as a “supervised” focus of attention operator. The term supervised refers to the fact that the attentional operator is trained to detect examples of a particular class. In the domain of face detection it is possible to achieve fewer than 1% false negatives and 40% false positives using a classifier constructed from two Harr-like features. The effect of this filter is to reduce by over one half the number of locations where the final detector must be evaluated.

attention operator의 "감독 된"초점으로 사용할 수있는 매우 간단하고 효율적인 분류기를 훈련하는 프로세스를 설명합니다.

감독되는 용어는 주의 연산자(attention operator)가 특정 클래스의 예를 감지하도록 훈련되었다는 사실을 나타냅니다.

얼굴 감지 영역에서는 두 개의 Harr 유사 기능으로 구성된 분류기를 사용하여 1 % 미만의 위음성(false positives) 및 40 % 미만의 위양성을 달성 할 수 있습니다.

이 필터의 효과는 최종 검출기를 평가해야하는 위치의 수를 절반 이상 줄이는 것입니다.

 

Those sub-windows which are not rejected by the initial classifier are processed by a sequence of classifiers, each slightly more complex than the last. If any classifier rejects the sub-window, no further processing is performed. The structure of the cascaded detection process is essentially that of a degenerate decision tree, and as such is related to the work of Geman and colleagues [1, 4].

초기 분류자에 의해 거부되지 않은 하위 창은 일련의 분류자에 의해 처리되며 각각은 마지막 분류자보다 약간 더 복잡합니다.

분류자가 하위 창을 거부하는 경우 추가 처리가 수행되지 않습니다.

계단식 탐지 프로세스의 구조는 본질적으로 퇴화 된 의사 결정 트리의 구조이며 Geman 및 동료의 작업과 관련이 있습니다 [1, 4].

 

An extremely fast face detector will have broad practical applications. These include user interfaces, image databases, and teleconferencing. In applications where rapid frame-rates are not necessary, our system will allow for significant additional post-processing and analysis. In addition our system can be implemented on a wide range of small low power devices, including hand-helds and embedded processors. In our lab we have implemented this face detector on the Compaq iPaq handheld and have achieved detection at two frames per second (this device has a low power 200 mips Strong Arm processor which lacks floating point hardware).

매우 빠른 얼굴 감지기는 광범위한 실용적인 응용 프로그램을 가지고 있습니다.

여기에는 사용자 인터페이스, 이미지 데이터베이스 및 원격 회의가 포함됩니다.

빠른 프레임 속도가 필요하지 않은 응용 분야에서 당사 시스템은 상당한 추가 후 처리 및 분석을 허용합니다.

또한 핸드 헬드 및 임베디드 프로세서를 포함한 다양한 소형 저전력 장치에서 시스템을 구현할 수 있습니다.

우리 연구실에서는이 얼굴 감지기를 Compaq iPaq 핸드 헬드에 구현했으며 초당 2 프레임으로 감지했습니다

(이 장치에는 부동 소수점 하드웨어가없는 저전력 200 mips Strong Arm 프로세서가 있음).

 

The remainder of the paper describes our contributions and a number of experimental results, including a detailed description of our experimental methodology. Discussion of closely related work takes place at the end of each section.

논문의 나머지 부분에서는 실험 방법론에 대한 자세한 설명을 포함하여 우리의 기여와 여러 실험 결과를 설명합니다.

밀접하게 관련된 작업에 대한 논의는 각 섹션의 끝에서 이루어집니다.

 

2. Features

Our object detection procedure classifies images based on the value of simple features. There are many motivations ure. for using features rather than the pixels directly. The most common reason is that features can act to encode ad-hoc domain knowledge that is difficult to learn using a finite quantity of training data. For this system there is also a second critical motivation for features: the feature based system operates much faster than a pixel-based system. The simple features used are reminiscent of Haar basis functions which have been used by Papageorgiou et al. [10]. More specifically, we use three kinds of features. The value of a two-rectangle feature is the difference between the sum of the pixels within two rectangular regions. The regions have the same size and shape and are horizontally or vertically adjacent (see Figure 1). A three-rectangle feature computes the sum within two outside rectangles subtracted from the sum in a center rectangle. Finally a four-rectangle feature computes the difference between diagonal pairs of rectangles. Given that the base resolution of the detector is 24x24, the exhaustive set of rectangle features is quite large, over 180,000 . Note that unlike the Haar basis, the set of rectangle features is overcomplete .

우리의 물체 감지 절차는 단순한 기능의 가치에 따라 이미지를 분류합니다.

픽셀이 아닌 기능을 직접 사용하기위한 것에는 많은 motivation이 있습니다.

가장 일반적인 이유는 기능이 제한된 positive의 훈련 데이터를 사용하여 학습하기 어려운 임시 도메인 지식을 인코딩하는 역할을 할 수 있기 때문입니다. 이 시스템의 경우 기능에 대한 두 번째 중요한 동기도 있습니다.

기능 기반 시스템은 픽셀 기반 시스템보다 훨씬 빠르게 작동합니다.

사용된 간단한 기능은 Papageorgiou 등이 사용했던 Haar 기본 기능을 연상시킵니다. 

보다 구체적으로, 우리는 세 가지 특징을 사용합니다.

두 직사각형 피처의 값은 두 직사각형 영역 내의 픽셀 합계 간의 차이입니다.

영역은 크기와 모양이 같고 가로 또는 세로로 인접합니다 (그림 1 참조).

세 개의 직사각형 피처는 중앙 직사각형의 합계에서 뺀 두 외부 직사각형 내의 합계를 계산합니다.

마지막으로 네 개의 직사각형 특징은 직사각형의 대각선 쌍 간의 차이를 계산합니다.

검출기의 기본 해상도가 24x24라는 점을 감안할 때 전체 직사각형 기능 집합은 180,000 이상으로 상당히 큽니다.

Haar 기반과 달리, 직사각형 특징 집합이 과도하게 완료됩니다(overcomplete).

 

2.1. Integral Image 통합 이미지

Rectangle features can be computed very rapidly using an intermediate representation for the image which we call the integral image.2 The integral image at location x, y contains the sum of the pixels above and to the left of x,y, inclusive:

직사각형 특징은 우리가 적분 이미지라고 부르는 이미지에 대한 중간 표현을 사용하여 매우 빠르게 계산할 수 있습니다 .

위치 x, y의 적분 이미지는 x, y의 위와 왼쪽에있는 픽셀의 합계를 포함합니다.

 

Where ii(x,y) is the integral image and i(x,y) is the original image. Using the following pair of recurrences:

여기서 ii (x, y)는 적분 이미지이고 i (x, y)는 원본 이미지입니다. 다음 반복 쌍 사용 :

(where s(x,y) is the cumulative row sum, s(x, -1)=0, and ii(-1,y)=0) the integral image can be computed in one pass over the original image.

(여기서 s(x, y)는 누적 행 합계이고, $s(x,-1)=0$ 및 $ii(-1,y)=0)$ 적분 이미지는 원본 이미지에 대해 한 번에 계산할 수 있습니다.

 Using the integral image any rectangular sum can be computed in four array references (see Figure 2). Clearly the difference between two rectangular sums can be computed in eight references. Since the two-rectangle features defined above involve adjacent rectangular sums they can be computed in six array references, eight in the case of the three-rectangle features, and nine for four-rectangle features.

적분 이미지를 사용하면 4 개의 배열 참조에서 직사각형 합계를 계산할 수 있습니다 (그림 2 참조).

두 개의 직사각형 합계 간의 차이는 8 개의 참조에서 계산할 수 있습니다.

위에 정의된 두 개의 직사각형 피처는 인접한 직사각형 합을 포함하므로

6 개의 배열 참조, 세 개의 직사각형 피처의 경우 8 개, 4 개의 직사각형 피처의 경우 9 개로 계산할 수 있습니다.

 

2.2. Feature Discussion 기능 토론

Rectangle features are somewhat primitive when compared with alternatives such as steerable filters[5, 7]. Steerable filters, and their relatives, are excellent for the detailed analysis of boundaries, image compression, and texture analysis. In contrast rectangle features, while sensitive to the presence of edges, bars, and other simple image structure, are quite coarse. Unlike steerable filters the only orientations available are vertical, horizontal, and diagonal. The set of rectangle features do however provide a rich image representation which supports effective learning. In conjunction with the integral image , the efficiency of the rectangle feature set provides ample compensation for their limited flexibility.

사각형 기능은 조종 가능한 필터 [5, 7]와 같은 대안과 비교할 때 다소 원시적입니다.

조정 가능한 필터 및 관련 필터는 경계, 이미지 압축 및 텍스처 분석의 세부 분석에 탁월합니다.

대조적으로 직사각형 특징은 가장자리, 막대 및 기타 간단한 이미지 구조의 존재에 민감하지만 매우 거칠습니다.

조정 가능한 필터와 달리 사용 가능한 유일한 방향은 수직, 수평 및 대각선입니다.

그러나 직사각형 기능 세트는 효과적인 학습을 지원하는 풍부한 이미지 표현을 제공합니다.

적분 이미지와 함께 사각형 기능 세트의 효율성은 제한된 유연성에 대한 충분한 보상을 제공합니다.

 

3. Learning Classification Functions 학습 분류 기능

Given a feature set and a training set of positive and negative images, any number of machine learning approaches could be used to learn a classification function. In our system a variant of AdaBoost is used both to select a small set of features and train the classifier [6]. In its original form, the AdaBoost learning algorithm is used to boost the classification performance of a simple (sometimes called weak) learning algorithm. There are a number of formal guarantees provided by the AdaBoost learning procedure. Freund and Schapire proved that the training error of the strong classifier approaches zero exponentially in the number of rounds. More importantly a number of results were later proved about generalization performance [14]. The key insight is that generalization performance is related to the margin of the examples, and that AdaBoost achieves large margins rapidly.

Feature set와 긍정적 및 부정적 이미지의 훈련 세트가 주어지면, 분류 기능을 학습하는데 얼마든지 기계 학습 접근 방식을 사용할 수 있습니다.

우리 시스템에서 AdaBoost의 변형은 작은 특징 세트를 선택하고 분류기를 훈련시키는 데 모두 사용됩니다 [6].

원래 형식에서 AdaBoost 학습 알고리즘은 간단한 (약한이라고도 함) 학습 알고리즘의 분류 성능을 높이는 데 사용됩니다.

AdaBoost 학습 절차에서 제공하는 여러 가지 공식적인 보증이 있습니다.

Freund와 Schapire는 강력한 분류기의 훈련 오류가 라운드 수에서 기하 급수적으로 0에 접근한다는 것을 증명했습니다.

더 중요한 것은 나중에 일반화 성능에 대한 많은 결과가 입증되었습니다 [14].

핵심 통찰력은 일반화 성능이 예제의 마진과 관련이 있으며 AdaBoost가 큰 마진을 빠르게 달성한다는 것입니다.

 

Recall that there are over 180,000 rectangle features associated with each image sub-window, a number far larger than the number of pixels. Even though each feature can be computed very efficiently, computing the complete set is prohibitively expensive. Our hypothesis, which is borne out by experiment, is that a very small number of these features can be combined to form an effective classifier. The main challenge is to find these features.

픽셀 수보다 훨씬 큰 숫자 인 각 이미지 하위 창과 관련된 180,000 개 이상의 직사각형 피처가 있음을 상기하십시오.

각 기능을 매우 효율적으로 계산할 수 있지만 전체 집합을 계산하는 데는 엄청난 비용이 듭니다.

실험에 의해 입증 된 우리의 가설은 매우 적은 수의 이러한 기능을 결합하여 효과적인 분류기를 형성 할 수 있다는 것입니다.

주요 과제는 이러한 기능을 찾는 것입니다.

 

In support of this goal, the weak learning algorithm is designed to select the single rectangle feature which best separates the positive and negative examples (this is similar to the approach of [2] in the domain of image database retrieval). For each feature, the weak learner determines the optimal threshold classification function, such that the minimum number of examples are misclassified. A weak classifier h_j(x) thus consists of a feature f_j , a threshold \theta_j and a parity p_j indicating the direction of the inequality sign:

이 목표를 지원하기 위해 약한 학습 알고리즘은 긍정적 인 예제와 부정적인 예제를 가장 잘 구분하는 단일 사각형 기능을 선택하도록 설계되었습니다 (이는 이미지 데이터베이스 검색 영역에서 [2]의 접근 방식과 유사합니다).

각 기능에 대해 약한 학습자가 최적의 임계 값 분류 기능을 결정하여 최소 예제 수를 잘못 분류합니다. 따라서 약한 분류 자 $​​h_j(x)$는 기능 $f_j$, 임계 값 $\ theta_j$ 및 부등식 부호의 방향을 나타내는 패리티 $p_j$로 구성됩니다.

Here x is a 24x24 pixel sub-window of an image. See Table 1 for a summary of the boosting process.

여기서 x는 이미지의 24x24 픽셀 하위 창입니다.

부스팅 프로세스에 대한 요약은 표 1을 참조하십시오.

In practice no single feature can perform the classification task with low error. Features which are selected in early rounds of the boosting process had error rates between 0.1 and 0.3. Features selected in later rounds, as the task becomes more difficult, yield error rates between 0.4 and 0.5. .

실제로 단일 기능은 낮은 오류로 분류 작업을 수행 할 수 없습니다.

부스팅 프로세스의 초기 단계에서 선택된 기능은 0.1에서 0.3 사이의 오류율을 가졌습니다.

작업이 더 어려워 짐에 따라 이후 라운드에서 선택한 기능은 0.4에서 0.5 사이의 오류율을 생성합니다.

 

3.1. Learning Discussion

Many general feature selection procedures have been proposed (see chapter 8 of [18] for a review). Our final application demanded a very aggressive approach which would discard the vast majority of features. For a similar recognition problem Papageorgiou et al. proposed a scheme for feature selection based on feature variance [10]. They demonstrated good results selecting 37 features out of a total 1734 features.

많은 일반적인 기능 선택 절차가 제안되었습니다 (검토를 위해 [18]의 8 장 참조).

우리의 최종 애플리케이션은 대부분의 기능을 버리는 매우 공격적인 접근 방식을 요구했습니다.

유사한 인식 문제 Papageorgiou et al. 특징 분산에 기반한 특징 선택 방안을 제안했다 [10].

총 1734 개의 기능 중 37 개를 선택하여 좋은 결과를 보여주었습니다.

 

Roth et al. propose a feature selection process based on the Winnow exponential perceptron learning rule [11]. The Winnow learning process converges to a solution where many of these weights are zero. Nevertheless a very large s. number of features are retained (perhaps a few hundred or thousand).

Roth et al. Winnow 지수 퍼셉트론 학습 규칙 [11]에 기반한 특징 선택 프로세스를 제안합니다.

Winnow 학습 프로세스는 이러한 가중치의 대부분이 0인 솔루션으로 수렴됩니다.

S가 매우 큰 숫자임이도 불구하고. 많은 기능이 유지됩니다 (아마 수백 또는 수천 개).

 

3.2. Learning Results

While details on the training and performance of the final system are presented in Section 5, several simple results merit discussion. Initial experiments demonstrated that a frontal face classifier constructed from 200 features yields a detection rate of 95% with a false positive rate of 1 in 14084. These results are compelling, but not sufficient for many real-world tasks. In terms of computation, this classifier is probably faster than any other published system, requiring 0.7 seconds to scan an 384 by 288 pixel image. Unfortunately, the most straightforward technique for improving detection performance, adding features to the classifier, directly increases computation time.

최종 시스템의 교육 및 성능에 대한 자세한 내용은 섹션 5에 나와 있지만 몇 가지 간단한 결과는 논의 할만한 가치가 있습니다.

초기 실험은 200 개의 특징으로 구성된 정면 분류기가 14084에서 1의 위양성 비율로 95 %의 탐지율을 산출한다는 것을 보여주었습니다.

이러한 결과는 설득력이 있지만 많은 실제 작업에는 충분하지 않습니다.

계산 측면에서이 분류기는 게시된 다른 시스템보다 빠를 것이므로 384 x 288 픽셀 이미지를 스캔하는 데 0.7 초가 필요합니다.

불행히도 탐지 성능을 개선하고 분류기에 기능을 추가하는 가장 간단한 기술은 계산 시간을 직접적으로 증가시킵니다.

For the task of face detection, the initial rectangle features selected by AdaBoost are meaningful and easily interpreted. The first feature selected seems to focus on the property that the region of the eyes is often darker than the region e of the nose and cheeks (see Figure 3). This feature is relatively large in comparison with the detection sub-window, and should be somewhat insensitive to size and location of the face. The second feature selected relies on the property that the eyes are darker than the bridge of the nose.

얼굴 감지 작업의 경우 AdaBoost에서 선택한 초기 사각형 기능은 의미 있고 쉽게 해석됩니다.

선택된 첫 번째 특징은 눈의 영역이 종종 코와 볼의 영역 e보다 어둡다는 특성에 초점을 맞추는 것 같습니다 (그림 3 참조).

이 기능은 감지 하위 창에 비해 상대적으로 크고 얼굴의 크기와 위치에 다소 민감하지 않습니다.

두 번째로 선택된 특징은 눈이 콧대보다 어둡다는 속성에 의존합니다.

 

4. The Attentional Cascade

This section describes an algorithm for constructing a cascade of classifiers which achieves increased detection performance while radically reducing computation time. The key insight is that smaller, and therefore more efficient, boosted classifiers can be constructed which reject many of the negative sub-windows while detecting almost all positive instances (i.e. the threshold of a boosted classifier can be adjusted so that the false negative rate is close to zero). Simpler classifiers are used to reject the majority of subwindows before more complex classifiers are called upon to achieve low false positive rates.

이 섹션에서는 계산 시간을 획기적으로 줄이면서 탐지 성능을 향상시키는 일련의 분류기를 구성하는 알고리즘을 설명합니다.

핵심 통찰력은 거의 모든 양성 인스턴스를 감지하면서 많은 음성 하위 창(negative sub-windows)을 거부하는 더 작고 더 효율적인 부스트 분류기를 구성 할 수 있다는 것입니다

(예 : 부스트 된 분류기의 임계 값을 조정하여 거짓 음성 비율(false negative rate)이 0에 가까움).

낮은 오탐률을 달성하기 위해 더 복잡한 분류 기가 호출되기 전에 더 간단한 분류 기가 대부분의 하위 창을 거부하는 데 사용됩니다.

The overall form of the detection process is that of a degenerate decision tree, what we call a “cascade” (see Figure 4). A positive result from the first classifier triggers the evaluation of a second classifier which has also been adjusted to achieve very high detection rates. A positive result from the second classifier triggers a third classifier, and so on. A negative outcome at any point leads to the immediate rejection of the sub-window.

탐지 프로세스의 전체적인 형태는 우리가 "캐스케이드"라고 부르는 퇴화 결정 트리("degenerate decision tree")의 형태입니다 (그림 4 참조).

첫 번째 분류기의 긍정적인 결과는 매우 높은 검출률을 달성하도록 조정된 두 번째 분류기의 평가를 트리거합니다.

두 번째 분류기의 긍정적인 결과는 세 번째 분류기를 트리거하는 식입니다.

어느 시점에서든 부정적인 결과는 하위 창(sub-windows)을 즉시 거부하게됩니다.

 

Stages in the cascade are constructed by training classifiers using AdaBoost and then adjusting the threshold to minimize false negatives. Note that the default AdaBoost threshold is designed to yield a low error rate on the training data. In general a lower threshold yields higher detection rates and higher false positive rates.

캐스케이드의 단계는 AdaBoost를 사용하여 분류기를 훈련 한 다음 임계 값을 조정하여 거짓 음성을 최소화함으로써 구성됩니다.

기본 AdaBoost 임계 값은 훈련 데이터에서 낮은 오류율을 생성하도록 설계되었습니다.

일반적으로 임계 값이 낮을수록 탐지율과 오탐율이 높아집니다.

 

For example an excellent first stage classifier can be constructed from a two-feature strong classifier by reducing the threshold to minimize false negatives. Measured against a validation training set, the threshold can be adjusted to detect 100% of the faces with a false positive rate of 40%. See Figure 3 for a description of the two features used in this classifier.

예를 들어, false negative를 최소화하기 위해 임계값을 줄임으로써 두 가지 기능이있는 강력한 분류기로 우수한 1단계 분류기를 구성 할 수 있습니다.

검증 훈련 세트에 대해 측정된 임계값을 조정하여 False negative 비율이 40 % 인 얼굴을 100 % 감지 할 수 있습니다.

이 분류기에 사용 된 두 가지 기능에 대한 설명은 그림 3을 참조하십시오.

 

Computation of the two feature classifier amounts to about 60 microprocessor instructions. It seems hard to imagine that any simpler filter could achieve higher rejection rates. By comparison, scanning a simple image template, or a single layer perceptron, would require at least 20 times as many operations per sub-window.

두 기능 분류기의 계산은 약 60 개의 마이크로 프로세서 명령어에 해당합니다.

더 단순한 필터가 더 높은 거부율을 달성 할 수 있다고 상상하기는 어렵습니다.

이에 비해 간단한 이미지 템플릿 또는 단일 레이어 퍼셉트론을 스캔하려면 하위 창당 최소 20배 많은 작업이 필요합니다.

 

The structure of the cascade reflects the fact that within any single image an overwhelming majority of subwindows are negative. As such, the cascade attempts to reject as many negatives as possible at the earliest stage possible. While a positive instance will trigger the evaluation of every classifier in the cascade, this is an exceedingly rare event.

캐스케이드의 구조는 단일 이미지 내에서 압도적 다수의 하위 창(sub-windows)이 부정적이라는 사실을 반영합니다.

따라서 캐스케이드는 가능한 가장 빠른 단계에서 가능한 한 많은 네거티브를 거부하려고 시도합니다.

양성 이미지(positive instance)는 캐스케이드의 모든 분류기 평가를 트리거하지만 매우 드문 이벤트입니다.

 

Much like a decision tree, subsequent classifiers are trained using those examples which pass through all the previous stages. As a result, the second classifier faces a more difficult task than the first. The examples which make it through the first stage are “harder” than typical examples. The more difficult examples faced by deeper classifiers push the entire receiver operating characteristic (ROC) curve downward. At a given detection rate, deeper classifiers have correspondingly higher false positive rates.

의사 결정 트리와 마찬가지로 후속 분류기는 모든 이전 단계를 통과하는 예제를 사용하여 훈련됩니다.

결과적으로 두 번째 분류기는 첫 번째 분류기보다 더 어려운 작업에 직면합니다.

첫 번째 단계를 통과하는 예는 일반적인 예보다 "더 어렵습니다".

더 깊은 분류 기가 직면 한 더 어려운 예는 전체 수신기 작동 특성 (ROC) 곡선을 아래로 밀어냅니다. 주어진 탐지율에서 더 깊은 분류자는 그에 따라 더 높은 오 탐율을 갖습니다.

 

4.1. Training a Cascade of Classifiers 일련의 분류기 훈련

The cascade training process involves two types of tradeoffs. In most cases classifiers with more features will achieve higher detection rates and lower false positive rates. At the same time classifiers with more featuresrequire more time to compute. In principle one could define an optimization framework in which: i) the number of classifier stages, ii) the number of features in each stage, and iii) the threshold of each stage, are traded off in order to minimize the expected number of evaluated features. Unfortunately finding this optimum is a tremendously difficult problem. In practice a very simple framework is used to produce an effective classifier which is highly efficient. Each stage in the cascade reduces the false positive rate and decreases the detection rate. A target is selected for the minimum reduction in false positives and the maximum decrease in detection. Each stage is trained by adding features until the target detection and false positivesrates are met ( these rates are determined by testing the detector on a validation set). Stages are added until the overall target for false positive and detection rate is met.

캐스케이드 교육 프로세스에는 두 가지 유형의 절충이 포함됩니다.

대부분의 경우 더 많은 기능을 가진 분류기는 더 높은 탐지율과 낮은 오탐율을 달성합니다.

동시에 더 많은 기능을 가진 분류기는 계산하는 데 더 많은 시간이 필요합니다.

원칙적으로 다음과 같은 최적화 프레임 워크를 정의 할 수 있습니다.

i) 분류기 단계의 수, ii) 각 단계의 기능 수, iii) 각 단계의 임계 값은 예상되는 특징의 평가 수를 최소화하기 위해 절충됩니다.

안타깝게도 이 최적을 찾는 것은 엄청나게 어려운 문제입니다.

실제로 매우 간단한 프레임 워크를 사용하여 매우 효율적인 효과적인 분류기를 생성합니다.

캐스케이드의 각 단계는 오탐지율을 줄이고 탐지율을 감소시킵니다.

오탐지의 최소 감소와 탐지의 최대 감소를 위해 타겟이 선택됩니다.

각 단계는 대상 탐지 및 오 탐지율이 충족 될 때까지 기능을 추가하여 훈련됩니다 (이러한 비율은 검증 세트에서 탐지기를 테스트하여 결정됨).

오탐지 및 탐지율에 대한 전체 목표가 충족 될 때까지 단계가 추가됩니다.

 

4.2. Detector Cascade Discussion 감지기 캐스케이드 토론

The complete face detection cascade has 38 stages with over 6000 features. Nevertheless the cascade structure results in fast average detection times. On a difficult dataset, containing 507 faces and 75 million sub-windows, faces are detected using an average of 10 feature evaluations per subwindow. In comparison, this system is about 15 times faster than an implementation of the detection system constructed by Rowley et al.3 [12]

완전한 얼굴 인식 캐스케이드에는 6000 개 이상의 기능이있는 38 개의 단계가 있습니다.

그럼에도 불구하고 캐스케이드 구조로 인해 평균 감지 시간이 빠릅니다.

507 개의 얼굴과 7 천 5 백만 개의 하위 창을 포함하는 어려운 데이터 세트에서 얼굴은 하위 창당 평균 10 개의 기능 평가를 사용하여 감지됩니다.

이에 비해 이 시스템은 Rowley 등이 구축한 탐지 시스템 구현보다 약 15 배 빠릅니다.

 

A notion similar to the cascade appears in the face detection system described by Rowley et al. in which two detection networks are used [12]. Rowley et al. used a faster yet less accurate network to prescreen the image in order to find candidate regions for a slower more accurate network. Though it is difficult to determine exactly, it appears that Rowley et al.’s two network face system is the fastest existing face detector.

캐스케이드와 유사한 개념이 Rowley 등이 설명한 얼굴 감지 시스템에 나타납니다.

두 개의 탐지 네트워크가 사용되는 경우 [12]. Rowley et al. 더 느린 더 정확한 네트워크에 대한 후보 지역을 찾기 위해 더 빠르지 만 덜 정확한 네트워크를 사용하여 이미지를 사전 스크리닝했습니다.

정확하게 판단하기는 어렵지만 Rowley 등의 두 개의 네트워크 얼굴 시스템이 기존의 가장 빠른 얼굴 탐지기 인 것으로 보입니다.

 

The structure of the cascaded detection process is essentially that of a degenerate decision tree, and as such is related to the work of Amit and Geman [1]. Unlike techniques which use a fixed detector, Amit and Geman propose an alternative point of view where unusual co-occurrences of simple image features are used to trigger the evaluation of a more complex detection process. In this way the full detection process need not be evaluated at many of the potential image locations and scales. While this basic insight is very valuable, in their implementation it is necessary to first evaluate some feature detector at every location. These features are then grouped to find unusual co-occurrences. In practice, since the form of our detector and the features that it uses are extremely efficient, the amortized cost of evaluating our detector at every scale and location is much faster than finding and grouping edges throughout the image.

계단식 탐지 프로세스의 구조는 본질적으로 퇴화 된 의사 결정 트리의 구조이며 Amit 및 Geman [1]의 작업과 관련이 있습니다.

고정 검출기를 사용하는 기술과 달리 Amit과 Geman은 단순한 이미지 특징의 비정상적인 동시 발생이보다 복잡한 검출 프로세스의 평가를 트리거하는 데 사용되는 대체 관점을 제안합니다.

이러한 방식으로 전체 감지 프로세스를 많은 잠재적 이미지 위치 및 배율에서 평가할 필요가 없습니다.

이 기본적인 통찰력은 매우 중요하지만 구현시 모든 위치에서 일부 기능 탐지기를 먼저 평가해야합니다.

그런 다음 이러한 기능을 그룹화하여 비정상적인 동시 발생을 찾습니다.

실제로 검출기의 형태와 사용하는 기능이 매우 효율적이기 때문에

모든 규모와 위치에서 검출기를 평가하는 상각된 비용(amortized cost)은 이미지 전체에서 가장자리를 찾고 그룹화하는 것보다 훨씬 빠릅니다.

 

In recent work Fleuret and Geman have presented a face detection technique which relies on a “chain” of tests in order to signify the presence of a face at a particular scale and location [4]. The image properties measured by Fleuret and Geman, disjunctions of fine scale edges, are quite different than rectangle features which are simple, exist at all scales, and are somewhat interpretable. The two approaches also differ radically in their learning philosophy. The motivation for Fleuret and Geman’s learning process is density estimation and density discrimination, while our detector is purely discriminative. Finally the false positive rate of Fleuret and Geman’s approach appears to be higher than that of previous approaches like Rowley et al. and this approach. Unfortunately the paper does not report quantitative results of this kind. The included example images each have between 2 and 10 false positives.

최근 연구에서 Fleuret과 Geman은 특정 규모와 위치에서 얼굴의 존재를 나타 내기 위해 테스트의 "체인"에 의존하는 얼굴 감지 기술을 제시했습니다 [4]. Fleuret과 Geman에 의해 측정 된 이미지 속성, 미세 스케일 가장자리의 분리는 단순하고 모든 스케일에 존재하며 다소 해석 가능한 직사각형 기능과는 상당히 다릅니다.

두 가지 접근 방식은 학습 철학에서 근본적으로 다릅니다. Fleuret과 Geman의 학습 과정에 대한 동기는 밀도 추정과 밀도 차별이며, 검출기는 순전히 차별적입니다.

마지막으로 Fleuret과 Geman의 접근 방식의 위양성 비율은 Rowley et al과 이 접근법 같은 이전 접근 방식보다 높은 것으로 보입니다.

불행히도 이 논문은 이러한 종류의 정량적 결과를 보고하지 않습니다. 포함된 예제 이미지에는 각각 2 ~ 10 개의 오 탐지가 있습니다.

 

5 Results

A 38 layer cascaded classifier was trained to detect frontal upright faces. To train the detector, a set of face and nonface training images were used. The face training set consisted of 4916 hand labeled faces scaled and aligned to a base resolution of 24 by 24 pixels. The faces were extracted from images downloaded during a random crawl of the world wide web. Some typical face examples are shown in Figure 5. The non-face subwindows used to train the detector come from 9544 images which were manually inspected and found to not contain any faces. There are about 350 million subwindows within these non-face images.

38 층 계단식 분류기는 정면 직립면을 감지하도록 훈련되었습니다.

탐지기를 훈련하기 위해 얼굴 및 비얼굴 훈련 이미지 세트가 사용되었습니다.

얼굴 훈련 세트는 24 x 24 픽셀의 기본 해상도로 크기가 조정되고 정렬된 4916 개의 손으로 레이블이 지정된 얼굴로 구성되었습니다.

얼굴은 월드 와이드 웹의 무작위 크롤링 중에 다운로드 된 이미지에서 추출되었습니다.

몇 가지 일반적인 얼굴 예가 그림 5에 나와 있습니다.

감지기를 훈련하는 데 사용 된 얼굴이 아닌 하위 창은 수동으로 검사 한 결과 얼굴이 포함되지 않은 것으로 밝혀진 9544 이미지에서 나옵니다.

얼굴이 아닌 이미지에는 약 3 억 5 천만 개의 하위 창이 있습니다.

 

The number of features in the first five layers of the detector is 1, 10, 25, 25 and 50 features respectively. The remaining layers have increasingly more features. The total number of features in all layers is 6061.

검출기의 처음 5개 레이어에 있는 기능의 수는 각각 1, 10, 25, 25 및 50 개입니다.

나머지 레이어에는 점점 더 많은 기능이 있습니다.

모든 레이어의 총 피처 수는 6061입니다.

 

Each classifier in the cascade was trained with the 4916 training faces (plus their vertical mirror images for a total of 9832 training faces) and 10,000 non-face sub-windows (also of size 24 by 24 pixels) using the Adaboost training procedure. For the initial one feature classifier, the nonface training examples were collected by selecting random sub-windows from a set of 9544 images which did not contain faces. The non-face examples used to train subsequent layers were obtained by scanning the partial cascade across the non-face images and collecting false positives. A maximum of 10000 such non-face sub-windows were collected for each layer.

캐스케이드의 각 분류기는 Adaboost 교육 절차를 사용하여 4916 개의 교육용 얼굴 (총 9832 개의 교육용 얼굴에 대한 수직 미러 이미지 포함) 및 10,000 개의 비얼굴 하위 창 (크기 24 x 24 픽셀)으로 교육되었습니다.

첫 번째 기능 분류기의 경우 얼굴이 포함되지 않은 9544 이미지 세트에서 임의의 하위 창을 선택하여 얼굴이 아닌 학습 예제를 수집했습니다.

후속 레이어를 훈련하는 데 사용되는 비얼굴 예제는 얼굴이 아닌 이미지에서 부분 캐스케이드를 스캔하고 거짓 긍정(false positive)을 수집하여 얻음.

각 레이어에 대해 최대 10000 개의 이러한 비얼굴 하위 창을 수집했습니다.

 

Speed of the Final Detector 최종 탐지기의 속도

The speed of the cascaded detector is directly related to the number of features evaluated per scanned sub-window. Evaluated on the MIT+CMU test set [12], an average of 10 features out of a total of 6061 are evaluated per sub-window. This is possible because a large majority of sub-windows are rejected by the first or second layer in the cascade. On a 700 Mhz Pentium III processor, the face detector can process a 384 by 288 pixel image in about .067 seconds (using a starting scale of 1.25 and a step size of 1.5 described below). This is roughly 15 times faster than the RowleyBaluja-Kanade detector [12] and about 600 timesfaster than the Schneiderman-Kanade detector [15].

계단식 감지기의 속도는 스캔 된 하위 창당 평가 된 기능의 수와 직접 관련이 있습니다. MIT + CMU 테스트 세트 [12]에서 평가 한 결과 총 6061 개 중 평균 10 개의 기능이 하위 창당 평가됩니다. 이는 대부분의 하위 창이 캐스케이드의 첫 번째 또는 두 번째 레이어에 의해 거부되기 때문에 가능합니다. 700Mhz Pentium III 프로세서에서 얼굴 감지기는 384 x 288 픽셀 이미지를 약 0.067 초 안에 처리 할 수 ​​있습니다 (아래에 설명 된 1.25의 시작 배율 및 1.5의 단계 크기 사용). 이것은 RowleyBaluja-Kanade 검출기 [12]보다 약 15 배 빠르며 Schneiderman-Kanade 검출기 [15]보다 약 600 배 빠릅니다.

 

Image Processing 이미지 처리

All example sub-windows used for training were variance normalized to minimize the effect of different lighting conditions. Normalization is therefore necessary during detection as well. The variance of an image sub-window can be computed quickly using a pair of integral images. Recall that $\sigma^2=m^2$, where $\sigma^2$ is the standard deviation, is the mean, and
 is the pixel value within the sub-window. The mean of a sub-window can be computed using the integral image. The sum of squared pixels is computed using an integral image of the image squared (i.e. two integral images are used in the scanning process). During scanning the effect of image normalization can be achieved by post-multiplying the feature values rather than pre-multiplying the pixels.

훈련에 사용 된 모든 예제 하위 창은 다양한 조명 조건의 영향을 최소화하기 위해 분산 정규화되었습니다.

따라서 탐지 중에도 정규화가 필요합니다.

이미지 하위 창의 분산은 한 쌍의 적분 이미지를 사용하여 빠르게 계산할 수 있습니다.

$\sigma^2=m^2$, 여기서 $\sigma^2$는 표준 편차이고, 평균이고, 하위 창 내의 픽셀 값입니다.

하위 창의 평균은 적분 이미지를 사용하여 계산할 수 있습니다.

제곱 픽셀의 합은 제곱 된 이미지의 적분 이미지를 사용하여 계산됩니다 (즉, 두 개의 적분 이미지가 스캔 프로세스에 사용됨).

스캔하는 동안 이미지 정규화의 효과는 픽셀을 미리 곱하는 대신 특성 값을 사후 곱하여 얻을 수 있습니다.

 

Scanning the Detector 감지기 스캔

The final detector is scanned across the image at multiple scales and locations. Scaling is achieved by scaling the detector itself, rather than scaling the image. This process makes sense because the features can be evaluated at any 507 faces. scale with the same cost. Good results were obtained using a set of scales a factor of 1.25 apart. The detector is also scanned across location. Subsequent locations are obtained by shifting the window some number of pixels  . This shifting process is affected by the scale of the detector: if the current scale is  the window is shifted by [s$\delta$] , where ? is the rounding operation. The choice of  affects both the speed of the detector as well as accuracy. The results we present are for $\Delta=1.0$ We can achieve a significant speedup by setting $\Delta=1.5$ with only a slight decrease in accuracy.

최종 검출기는 여러 축척 및 위치(multiple scales and locations)에서 이미지 전체에 걸쳐 스캔됩니다.

스케일링은 이미지를 스케일링하는 대신 검출기 자체의 스케일링을 통해 이루어집니다.

이 프로세스는 모든 507 개의면에서 피쳐를 평가할 수 있기 때문에 의미가 있습니다.

동일한 비용으로 확장 할 수 있습니다.

1.25 배씩 떨어져있는 일련의 척도를 사용하여 좋은 결과를 얻었습니다.

감지기는 또한 여러 위치에서 스캔됩니다.

후속 위치는 창을 일정 수의 픽셀로 이동하여 얻습니다.

이 이동 과정은 검출기의 크기에 영향을받습니다.

현재 크기가 창을 [s$\delta$]만큼 이동하면 $\delta$ 반올림 작업입니다. 의 선택은 탐지기의 속도와 정확도 모두에 영향을 미칩니다. 우리가 제시한 결과는 $ \ Delta = 1.0 $입니다. $ \ Delta = 1.5 $를 설정하면 정확도를 약간만 낮추고 속도를 크게 높일 수 있습니다.

 

Integration of Multiple Detections 다중 탐지 통합

Since the final detector is insensitive to small changes in translation and scale, multiple detections will usually occur around each face in a scanned image. The same is often true of some types of false positives. In practice it often makes sense to return one final detection per face. Toward this end it is useful to postprocess the detected sub-windows in order to combine overlapping detections into a single detection.

최종 검출기는 번역 및 배율의 작은 변화에 민감하지 않기 때문에 일반적으로 스캔 된 이미지의 각 얼굴 주변에서 여러 번의 검출이 발생합니다.

일부 유형의 오탐지에서도 마찬가지입니다.

실제로 얼굴 당 하나의 최종 감지를 반환하는 것이 일반적입니다.

이를 위해 겹치는 감지를 단일 감지로 결합하기 위해 감지된 하위 창을 후처리하는 것이 유용합니다.

 

In these experiments detections are combined in a very simple fashion. The set of detections are first partitioned into disjoint subsets. Two detections are in the same subset if their bounding regions overlap. Each partition yields a single final detection. The corners of the final bounding region are the average of the corners of all detections in the set.

이 실험에서 탐지는 매우 간단한 방식으로 결합됩니다.

탐지 집합은 먼저 분리된 하위 집합으로 분할됩니다.

경계 영역이 겹치는 경우 두 탐지가 동일한 하위 집합에 있습니다.

각 파티션은 단일 최종 탐지를 생성합니다.

최종 경계 영역의 모서리(corners of the final bounding region)는 세트에 있는 모든 감지 모서리의 평균입니다.

 

Experiments on a Real-World Test Set

We tested our system on the MIT+CMU frontal face test set [12]. This set consists of 130 images with 507 labeled frontal faces. A ROC curve showing the performance of our detector on this test set is shown in Figure 6. To create the ROC curve the threshold of the final layer classifier is adjusted from $-\infty$ to$+\infty$. Adjusting the threshold to $+\infty$ will yield a detection rate of 0.0 and a false positive rate of 0.0. Adjusting the threshold to $-\infty$, however, increases both the detection rate and false positive rate, but only to a certain point. Neither rate can be higher than the rate of the detection cascade minus the final layer. In effect, a threshold of $-\infty$ is equivalent to removing that layer. Further increasing the detection and false positive rates requires decreasing the threshold of the next classifier in the cascade.

우리는 MIT + CMU 정면 테스트 세트 [12]에서 시스템을 테스트했습니다.

이 세트는 507 개의 레이블이있는 정면이있는 130 개의 이미지로 구성됩니다.

이 테스트 세트에서 검출기의 성능을 보여주는 ROC 곡선이 그림 6에 나와 있습니다.

ROC 곡선을 생성하기 위해 최종 계층 분류기의 임계 값을 $-\infty$에서 $+\infty$로 조정합니다.

임계 값을 $+\infty$로 조정하면 탐지율이 0.0이고 오 탐지율이 0.0이됩니다.

그러나 임계 값을 $-\infty$로 조정하면 탐지율과 오탐률이 모두 증가하지만 특정 지점까지만 증가합니다.

두 비율 모두 탐지 캐스케이드 비율에서 최종 레이어를 뺀 비율보다 높을 수 없습니다.

실제로 $-\ infty $의 임계 값은 해당 계층을 제거하는 것과 같습니다.

탐지 및 오탐률을 더 높이려면 캐스케이드에서 다음 분류기의 임계 값을 줄여야합니다.

 

Thus, in order to construct a complete ROC curve, classifier layers are removed. We use the number of false positives as opposed to the rate of false positives for the x-axis of the ROC curve to facilitate comparison with other systems. To compute the false positive rate, simply divide by the total number of sub-windows scanned. In our experiments, the number of sub-windows scanned is 75,081,800.

따라서 완전한 ROC 곡선을 구성하기 위해 분류기 레이어가 제거됩니다.

다른 시스템과의 비교를 용이하게하기 위해 ROC 곡선의 x 축에 대해 위양성 비율과 반대로 위양성 수를 사용합니다.

오탐률을 계산하려면 스캔 한 총 하위 창 수로 나누면됩니다.

실험에서 스캔 된 하위 창 수는 75,081,800 개입니다.

 

Unfortunately, most previous published results on face detection have only included a single operating regime (i.e. single point on the ROC curve). To make comparison with our detector easier we have listed our detection rate for the false positive rates reported by the other systems. Table 2 lists the detection rate for various numbers of false detections for our system as well as other published systems. For the Rowley-Baluja-Kanade results [12], a number of different versions of their detector were tested yielding a number of different resultsthey are all listed in under the same heading. For the Roth-Yang-Ahuja detector [11], they reported their result on the MIT+CMU test set minus 5 images containing line drawn faces removed. Figure 7 shows the output of our face detector on some test images from the MIT+CMU test set.

안타깝게도 이전에 발표 된 대부분의 얼굴 감지 결과에는 단일 작동 체제 (즉, ROC 곡선의 단일 지점) 만 포함되었습니다.

검출기와의 비교를 더 쉽게하기 위해 다른 시스템에서보고 된 오 탐지율에 대한 검출 율을 나열했습니다.

표 2에는 시스템 및 기타 게시 된 시스템에 대한 다양한 오 탐지 수의 탐지율이 나와 있습니다.

Rowley-Baluja-Kanade 결과 [12]의 경우, 탐지기의 여러 버전을 테스트하여 여러 다른 결과를 산출했으며 모두 동일한 제목 아래에 나열되어 있습니다. Roth-Yang-Ahuja 검출기 [11]의 경우, MIT + CMU 테스트 세트에서 제거 된 선이 그려진 얼굴을 포함하는 5 개의 이미지를 뺀 결과를보고했습니다.

그림 7은 MIT + CMU 테스트 세트의 일부 테스트 이미지에 대한 얼굴 감지기의 출력을 보여줍니다.

A simple voting scheme to further improve results 결과를 더욱 향상시키기위한 간단한 투표 계획

In table 2 we also show results from running three detectors (the 38 layer one described above plus two similarly trained detectors) and outputting the majority vote of the three detectors. This improves the detection rate as well as eliminating more false positives. The improvement would be greater if the detectors were more independent. The correlation of their errors results in a modest improvement over the best single detector.

표 2에는 3개의 검출기 (위에 설명 된 38개의 레이어 1과 유사하게 훈련 된 2개의 검출기)를 실행하고 3 개의 검출기 중 다수 표를 출력 한 결과도 표시됩니다.

이것은 탐지율을 향상시킬뿐만 아니라 더 많은 오탐지를 제거합니다.

감지기가 더 독립적이면 개선이 더 커질 것입니다.

오류의 상관 관계는 최고의 단일 검출기에 비해 약간의 개선을 가져옵니다.

 

6 Conclusions

We have presented an approach for object detection which minimizes computation time while achieving high detection accuracy. The approach was used to construct a face detection system which is approximately 15 faster than any previous approach.

높은 감지 정확도를 달성하면서 계산 시간을 최소화하는 물체 감지를위한 접근 방식을 제시했습니다.

이 접근 방식은 이전 접근 방식보다 약 15배 빠른 얼굴 감지 시스템을 구축하는 데 사용되었습니다.

 

This paper brings together new algorithms, representations, and insights which are quite generic and may well have broader application in computer vision and image processing. Finally this paper presents a set of detailed experiments on a difficult face detection dataset which has been widely studied. This dataset includes faces under a very wide range of conditions including: illumination, scale, pose, and camera variation. Experiments on such a large and complex dataset are difficult and time consuming. Nevertheless systems which work under these conditions are unlikely to be brittle or limited to a single set of conditions. More importantly conclusions drawn from this dataset are unlikely to be experimental artifacts.

이 논문은 컴퓨터 비전 및 이미지 처리에 더 광범위하게 적용될 수있는 매우 일반적인 새로운 알고리즘, 표현 및 통찰력을 통합합니다.

마지막으로 이 논문은 광범위하게 연구 된 어려운 얼굴 감지 데이터 세트에 대한 일련의 상세한 실험을 제시합니다.

이 데이터 세트에는 조명, 스케일, 포즈 및 카메라 변형을 포함한 매우 광범위한 조건의 얼굴이 포함됩니다.

이처럼 크고 복잡한 데이터 세트에 대한 실험은 어렵고 시간이 많이 걸립니다.

그럼에도 불구하고 이러한 조건에서 작동하는 시스템은 취약하거나 단일 조건 세트로 제한되지 않을 것입니다.

더 중요한 것은 이 데이터 세트에서 도출 된 결론이 실험적 인공물이 아닐 가능성이 높다는 것입니다.