3D Face Mesh Modeling for 3D Face Recognition
3D Face Mesh Modeling for 3D Face Recognition
1. Introduction
Face recognition has rapidly emerged as an important area of research within many scientific and engineering disciplines. It has attracted research institutes, commercial industries, and numerous government agencies. This fact is evident by the existence of large number of face recognition conferences such as the International Conference on Automatic Face and Gesture and the Biometric Consortium conference. Special issues of well known journals, are being dedicated to face modeling and recognition, such as the journal of Computer Vision and Image Understanding (CVIU), and the systematic empirical evaluations of face recognition techniques including the FERET (Phillips et al., 2000), XM2VTS (Messer et al., 1999), FRVT 2000 (Blackburn et al., 2000), FRVT 2002 (Phillips et al., 2002), and FRVT 2006, which evolved substantially in the last few years. There are few reasons for this trend; first the demands for machine automations, securities, and law enforcements have created a wide range of commercial applications. The second is the availability of feasible technologies developed by researchers in the areas of image processing, pattern recognition, neural network, computer vision, and computer graphics. Another reason for this growing interest is to help us better understand ourselves through the fields of psychology and cognitive science which targeted the perception of faces in the brain. Because our natural face recognition abilities are very powerful, the study of the brain system could offer important guidance in the development of automatic face recognition. Research with animals has shown that these capabilities are not unique to humans. Sheep, for example, are known to have a remarkable memory for faces (Kendrick et al., 2000). In addition, we constantly use our faces while interacting with each others in a conversation. Face gesturing helps us understand what is being said. Facial expression is an important cue in understanding a person’s emotional state. In sign languages, faces also convey meanings that are essential part of the language. A wealth of 2D image-based algorithms has been published in the last few decades (Zhaho et al., 2003). Due to the numerous limitations of 2D approaches, 3D range image-based algorithms are born. Generally, 3D facial range image or data is rich, yet making full use of its high resolution for face recognition is very challenging. It is difficult to extract numerously reliable facial features in 3D.
얼굴 인식은 많은 과학 및 공학 분야에서 중요한 연구 분야로 빠르게 부상했습니다. 연구 기관, 상업 산업 및 수많은 정부 기관을 유치했습니다.
이 사실은 자동 얼굴 및 제스처에 관한 국제 회의 및 생체 인식 컨소시엄 회의와 같은 많은 수의 얼굴 인식 회의의 존재를 통해 분명합니다.
Computer Vision and Image Understanding (CVIU) 저널, FERET (Phillips et al., 2000) 등 얼굴 인식 기술에 대한 체계적인 실증 평가 등 잘 알려진 저널의 특집은 얼굴 모델링 및 인식에 전념하고 있습니다. ,
XM2VTS (Messer et al., 1999), FRVT 2000 (Blackburn et al., 2000), FRVT 2002 (Phillips et al., 2002), FRVT 2006은 지난 몇 년 동안 실질적으로 진화했습니다. 이러한 추세에는 몇 가지 이유가 있습니다.
첫째, 기계 자동화, 증권 및 법 집행에 대한 요구로 인해 광범위한 상업 응용 프로그램이 만들어졌습니다.
두 번째는 이미지 처리, 패턴 인식, 신경망, 컴퓨터 비전 및 컴퓨터 그래픽 분야에서 연구자들이 개발한 실행 가능한 기술의 가용성입니다.
이러한 관심이 높아지는 또 다른 이유는 뇌의 얼굴 인식을 목표로 하는 심리학 및 인지 과학 분야를 통해 우리 자신을 더 잘 이해하도록 돕는 것입니다.
우리의 자연스러운 얼굴 인식 능력은 매우 강력하기 때문에 뇌 시스템의 연구는 자동 얼굴 인식 개발에 중요한 지침을 제공할 수 있습니다.
동물을 대상으로 한 연구에 따르면 이러한 능력은 인간에게만 국한되지 않습니다.
예를 들어 양은 얼굴에 대한 기억력이 뛰어난 것으로 알려져 있습니다 (Kendrick et al., 2000).
또한 우리는 대화에서 서로 상호 작용하면서 끊임없이 얼굴을 사용합니다.
얼굴 몸짓은 우리가 말하는 내용을 이해하는 데 도움이 됩니다.
표정은 사람의 감정 상태를 이해하는 데 중요한 단서입니다.
수화에서 얼굴은 언어의 필수 부분 인 의미도 전달합니다.
지난 수십 년 동안 풍부한 2D 이미지 기반 알고리즘이 발표되었습니다 (Zhaho et al., 2003).
2D 접근 방식의 수많은 한계로 인해 3D 범위 이미지 기반 알고리즘이 탄생했습니다.
일반적으로 3D 얼굴 범위 이미지 또는 데이터는 풍부하지만 얼굴 인식을 위해 고해상도를 최대한 활용하는 것은 매우 어렵습니다.
믿을 수있는 얼굴 특징을 3D로 추출하는 것은 어렵습니다.
결과적으로 두 세트의 3D 데이터를 정확하게 일치시키는 것이 더 어렵고 계산 비용이 많이 듭니다 (예 : 피사체의 프로브 데이터와 갤러리의 데이터 일치). 이 장의 목표는 얼굴 인식 응용 프로그램에 유용한 변형된 3D 메시 모델 (Ansari, 2007)에 의해 주어진 피사체의 3D 얼굴 데이터를 나타내는 모델 기반 접근 방식을 설명하는 것입니다.
시스템의 일반적인 블록 다이어그램은 모델링 단계와 인식 단계로 구성된 그림 1에 나와 있습니다.
모델링 단계에서는 먼저 범위 이미지에서 3개의 얼굴 특징점만 추출한 다음 3D 일반 얼굴 모델을 주어진 피사체 얼굴의 전체 범위 데이터에 정렬하는데 사용됩니다.
그런 다음 세 개의 정점이 있는 메쉬 모델의 각 정렬된 삼각형이 표면 평면으로 처리된 다음 최소 제곱 평면 피팅을 사용하여 해당 내부 3D 범위 데이터에 적합 (변형)됩니다.
삼각형 꼭짓점 세분화를 통해 정렬되고 피팅된 모델의 좌표에서 더 높은 해상도 모델이 생성됩니다.
마지막으로 모델과 삼각형 표면이 다시 한 번 장착되어 얼굴의 표면 특성을 닮고 포착하는 더 부드러운 메쉬 모델이 생성됩니다.
인식 단계에서 3D 프로브 얼굴이 유사하게 모델링되고 데이터베이스의 모든 얼굴과 비교됩니다.
공개적으로 사용 가능한 데이터베이스를 사용하여 3D 얼굴 인식에서 최종 변형 모델의 실험적 적용은 유망한 인식률을 보여줍니다.
이 장은 다음과 같이 구성됩니다.
섹션 2는 얼굴인식의 한계와 도전을 설명합니다.
섹션 3은 관련 작업의 검토를 다룹니다.
섹션 4에서는 데이터 전처리 및 얼굴 특징 추출에 대해 설명합니다.
섹션 5는 3D 얼굴모델링의 과정을 보여줍니다.
섹션 6은 실험 결과를 보여줍니다.
마지막으로 결론 및 논의섹션 7에 나와 있습니다.
2. 한계와 도전
얼굴 인식 기술의 큰 잠재력과 상당한 발전에도 불구하고여전히 견고하지 않으며 특히 제약이 없는 환경에서 오류율이 높으며 대규모 애플리케이션에서. 얼굴 외모에서 사람을 식별하는 과정은얼굴을 바꾸는 많은 상반되는 요인이 있는 경우 수행해야합니다.외모와 작업을 어렵게 만듭니다. 표 1에서 우리는 얼굴의 변화를 분류합니다.내재적 및 외적 변동의 두 가지 유형으로 나타납니다.
본질적인 변화는 관찰자(카메라)와는 독립적으로 발생하며 순전히 얼굴의 물리적 특성에 ID 소스는 중요한 내재입니다.
사람을 서로 식별하는 데에는 차이가 있지만 다음과 결합하면 문제가 발생합니다.
분석적으로 특성화하기 어렵기 때문에 노화 또는 표정. 외인성카메라의 상대적 위치 및 조명으로 인한 포즈 변화의 원인얼굴 인식에 큰 도전을 제시합니다. 인식 시스템은 비교되는 이미지가 캡처되는 조명 조건 및 상황. 이러한 조명 조건은 환경 또는 물리적 특성으로 인한 것일 수 있습니다.
이미지 캡처 장치, 즉 동일한 브랜드의 두 대의 카메라가 서로 다른노출. 얼굴의 자세는 상대적인 3차원 위치에 의해 결정되며 캡처 장치의 방향.
일반적으로 동일한 피사체의 두 얼굴 이미지를 다른 포즈는 같은 포즈로 찍은 두 피사체의 두 이미지보다 더 다릅니다.
포즈의 변경은 단단한 3D 모션으로 간주되지만 얼굴은 비강성 상태 일 수도 있습니다.
말이나 표정으로 인해 3D 모양이 변할 때 움직임 매우 어렵습니다
두 가지 유형의 모션을 동시에 모델링합니다.
이러한 모든 요인과 조건은인식 시스템 훈련에 사용되는 이미지와 얻은 이미지는 인식. 이러한 요소가 적절하게 통합되고 모델링되지 않으면인식 시스템의 정확성과 성능을 저하시킵니다.
또 다른 과제는 인식 측정을위한 평가 표준의 필요성입니다.
다양한 환경 및 조건에서 성능.
이러한 필요성에 따라 얼굴 인식 업체라는 독립적 인 정부 평가 표준이 시작되었습니다.
테스트 (FRVT) (Blackburn et al., 2000). FRVT는 다음에 대한 평가를 제공하기 위해 개발되었습니다.상용화되고 프로토 타입 얼굴 인식 기술.
3. Related work 관련 작업
이러한 평가는 미국 정부 및 법 집행 기관에 정보를 제공하도록 설계되었습니다.안면 인식 기술이 가장 좋은 위치와 방법을 결정하는 데 도움을 줍니다.배포. 또한 FRVT 결과는 인식 커뮤니티에서 얼굴에 대한 향후 연구 방향을 식별하는 데 도움이 됩니다. 과거에는 FRVT 2002에서 많은 요소가 평가되었습니다.(Phillips et al., 2003).얼굴 인식 시스템에 대한 최근 도전은 가능한 개인 정보 위반에 대한 우려입니다. 예를 들어 ACLU (American Civil Liberties Union)는 얼굴 사용을 반대합니다.허위 신원 및 개인 정보 보호 문제로 인해 공항의 인식 시스템. ACLU얼굴 인식 기술이 광범위한 도구로 진화할 위험이 있다고 주장시민들이 공공 장소에서 이동하는 것을 감시합니다. 반자동 얼굴 인식 시스템은 1965 년으로 거슬러 올라갑니다. (Chan & Bledos, 1965)수동으로 추출한 얼굴 특징을 제공하는 컴퓨터 프로그램이만족스러운 성능으로 인식을 수행합니다. 지난 몇 년 동안 얼굴 인식 큰 관심을 받았습니다. 얼굴 인식에 대한 문헌 조사는 (Zhaho et al.,2003), 대부분의 논문은 2D 알고리즘을 조사합니다. 또한 작업 및 설문 조사(Bowyer et al., 2004) 2D 데이터, 3D 데이터 및2D + 3D 데이터 융합 (멀티 모달이라고도 함). 그들은 3D 얼굴 인식이접근 방식은 2D 접근 방식을 능가하며 2D + 3D 데이터의 융합은 약간3D 단독보다 더 나은 결과. 최근 (Boyer et al., 2006)의 설문 조사에서 일부 알고리즘을 인용했습니다.2D 인식 방식이 3D 방식을 능가합니다. 그것이 있다는 믿음이 있습니다현재의 접근 방식이 아직 충분히 활용되지 않았기 때문에이 판단을 내리기에는 아직 시기상조입니다.인식 알고리즘 또는 엄격한 실험 방법론에서 3D 데이터의.이 장에서는 범위 이미지 (3D 데이터)에서 처리 된 관련 3D 알고리즘 만 검토합니다.혼자.
We can broadly classify 3D face recognition into three categories, namely, 3D surface matching, representative domain, and model-based approaches. A surface matching method, known as Iteratively Closest Point (ICP) approach (Besl & McKay, 1992), is often used as a necessary step in aligning or matching the datasets of two subjects (Lu & Jain, 2006). ICP is based on the search of pairs of nearest points in the two datasets and estimation of the rigid transformation that aligns them. Then the rigid transformation is applied to the points of one set and the procedure is iterated until convergence. Hausdorff distance is another matching approach which is often used in conjunction with ICP. Hausdorff distance attempts to match two datasets based on subset points from the datasets (Huttenlocher et al., 1993); (Russ et al., 2005). The problems with these two matching approaches are expensive computations and sometimes fail to give accurate results. The main reason for using ICP or Hausdorff is not having direct correspondences between the two compared datasets. In the presented algorithm of this chapter, the two compared datasets have direct feature correspondences, which eliminate the need for the above alignment/matching algorithms. (Medioni & Waupotitsch, 2003) present an authentication system that acquires the 3D image of the subject using stereo images based on internally and externally calibrated cameras. They use the ICP algorithm to calculate similarity between two faces achieving 98% on a database of 100 subjects. (Lu et al., 2004) filter and stitch five multiple views of 2.5D facial scan of each subject to obtain a more complete 3D facial scan.
3D 얼굴 인식은 크게 3D 표면, 즉 3 가지 범주로 분류 할 수 있습니다. 3D surface matching, 대표 도메인 및 모델 기반 접근 방식. ICP (Iteratively Closest Point) 접근 방식 (Besl & McKay, 1992)으로 알려진 방법은 종종 두 주제 (Lu & Jain,)의 데이터 세트를 정렬하거나 일치시키는 데 필요한 단계로 사용 2006). ICP는 두 데이터 세트에서 가장 가까운 점 쌍 검색 및 추정을 기반으로합니다. 그것들을 정렬하는 엄격한 변형의. 그런 다음 엄격한 변형이 한 세트의 점과 절차가 수렴 될 때까지 반복됩니다. Hausdorff 거리는 ICP와 함께 자주 사용되는 또 다른 매칭 접근법. Hausdorff 거리 데이터 세트의 하위 집합 포인트를 기반으로 두 데이터 세트를 일치 시키려고 시도합니다 (Huttenlocher et al., 1993); (Russ et al., 2005). 이 두 가지 매칭 방식의 문제점은 다음과 같습니다. 비용이 많이 들고 때로는 정확한 결과를 제공하지 못합니다. 주된 이유 ICP 또는 Hausdorff를 사용하는 것은 비교 된 둘 사이에 직접적인 대응이 없습니다 데이터 세트. 이 장의 제시된 알고리즘에서 비교 된 두 데이터 세트는 직접 기능 대응, 위의 정렬 / 일치의 필요성 제거 알고리즘. (Medioni & Waupotitsch, 2003)는 내부 및 외부 보정을 기반으로 스테레오 이미지를 사용하여 피사체의 3D 이미지 카메라. 그들은 ICP 알고리즘을 사용하여 100 명의 대상 데이터베이스에서 98 %를 달성 한 두 얼굴 간의 유사성을 계산합니다. (Lu et al., 2004) 5 개의 다중 뷰를 필터링하고 연결합니다. 보다 완벽한 3D 얼굴 스캔을 얻기 위해 각 피사체의 2.5D 얼굴 스캔.
The complete 3D facial scan model is used in the gallery for recognition and the partial 2.5D scans are used as probes. Matching is performed using ICP between a 3D scanned test face with the faces in the database. A 96% recognition rate is obtained with a database of 19 subjects. (Lu & Jain, 2005) extended their previous work using an ICP-based recognition approach by (Russ et al., 2004) to deal explicitly with variations due to the smiling expression. In their experiments, they used a 100-person dataset, with neutral-expression and smiling probes, matched to neutral-expression gallery images. The gallery entries were whole-head 3D models, whereas the probes were 2.5D scan frontal views. They report that most of the errors are after the rigid transformation resulted from smiling probes, and these errors are reduced substantially after the non-rigid deformation stage. For the total of 196 probes (98 neutral and 98 smiling), performance reached 89%. (Uchida et al., 2005) propose two sets of a passive stereo system using four cameras to capture facial images. One set contains two cameras with short baseline intended for accurate correspondence matching. The other two cameras are separated with wide baseline for accurate 3D reconstruction. ICP matching is used between the probe and the gallery faces of a database of 18 subjects each with four simultaneous images. Unfortunately, no recognition rate was reported. (Chang et al., 2005) present an Adaptive Rigid Multi-region Selection (ARMS) approach to independently match multiple facial regions and create a fused result.
완전한 3D안면 스캔 모델은 인식을 위해 갤러리에서 사용되며 부분 2.5D 스캔은프로브. 3D 스캔 한 테스트 얼굴 사이에서 ICP를 사용하여 일치가 수행됩니다.데이터베이스. 19 명의 피험자의 데이터베이스로 96 %의 인식률을 얻었습니다. (Lu & Jain,2005) ICP 기반 인식 접근 방식을 사용하여 이전 작업을 확장했습니다 (Russ etal., 2004) 웃는 표정으로 인한 변이를 명시 적으로 다루었습니다. 그들의실험에서 그들은 중립적 표현과 미소 프로브가있는 100 명 데이터 세트를 사용했습니다.중립적 인 표현의 갤러리 이미지와 일치합니다. 갤러리 항목은 전체 머리 3D였습니다.반면 프로브는 2.5D 스캔 정면도였습니다. 그들은 대부분의오류는 프로브 미소로 인한 엄격한 변형 후 발생하며 이러한 오류는비 강성 변형 단계 후에 실질적으로 감소합니다. 총 196 개의 프로브 (98중성, 98 명 미소), 성과는 89 %에 달했다. (Uchida et al., 2005)네 대의 카메라를 사용하여 얼굴 이미지를 캡처하는 수동 스테레오 시스템. 한 세트에는 두 가지가 들어 있습니다정확한 대응 일치를위한 짧은 기준선이있는 카메라. 다른 두카메라는 정확한 3D 재구성을 위해 넓은 기준선으로 분리됩니다. ICP 매칭은프로브와 갤러리 얼굴 사이에 사용 된동시 이미지. 불행히도 인식률은보고되지 않았습니다. (Chang et al., 2005)ARMS (Adaptive Rigid Multi-region Selection) 접근 방식을 제시하여여러 얼굴 영역을 만들고 융합 된 결과를 만듭니다.
The ARMS is a classifier type approach in which multiple overlapping sub-regions (e.g., areas around the nose) are independently matched by ICP. Then, the results of the multiple 3D matching are fused. Their experiments on FRGC version 2.0 database resulted in a 91.9 % rank-one recognition rate for automatic Regions of Interest (ROIs) finding and 92.3 % rank-one recognition rate for manual ROIs finding. (Achermann & Bunke, 2000) used two range scanners to capture ranges image in order to overcome the holes and missing data that might result from using one scanner. In addition, they used an extension of 3D Hausdorff distance for 3D face matching. Using 10 images per each of the 24 subjects, they reported 100% recognition rate. (Lee & Shim, 2004) incorporate depth information with local facial features in 3D recognition using Hausdorff distance weighted by a function based on depth values. The weights have different values at important facial features such as the nose, eyes, mouth, and face contour. They achieved rank five recognition rate of 98%. (Russ et al., 2004) use Hausdorff distance matching for range images. In a verification experiment for 200 subjects enrolled in the gallery and the same 200 persons plus an additional 68 in the probe set, they report a verification rate of 98%. In a recognition experiment, 30 persons enrolled in the gallery and the same 30 persons imaged at a later time were used in the probe set. A 50% recognition rate is achieved at a false alarm rate of 0.
ARMS는 분류 자 유형 접근 방식입니다. 겹치는 여러 하위 영역 (예 : 코 주변 영역)이 독립적으로 ICP와 일치합니다. 그런 다음 다중 3D 매칭의 결과가 융합됩니다. 그들의 실험 FRGC 버전 2.0 데이터베이스에서 자동 인식률은 91.9 %입니다. 관심 영역 (ROI) 결과 및 수동 ROI에 대한 92.3 % 1 위 인식률 발견. (Achermann & Bunke, 2000)는 두 개의 범위 스캐너를 사용하여 범위 이미지를 하나의 스캐너를 사용하여 발생할 수있는 구멍과 누락 된 데이터를 극복하기 위해. 에 또한 3D 얼굴 일치를 위해 3D Hausdorff 거리 확장을 사용했습니다. 10 사용 24 명의 피험자 각각에 대해 이미지 인식률이 100 %라고보고했습니다. (이 앤심, 2004) Hausdorff를 사용하여 3D 인식에서 로컬 얼굴 특징과 깊이 정보 통합 깊이 값을 기반으로 함수에 의해 가중 된 거리. 가중치는 코, 눈, 입 및 얼굴 윤곽과 같은 중요한 얼굴 특징. 그들은 달성했습니다 98 %의 5 위 인식률. (Russ et al., 2004) Hausdorff 거리 매칭을 사용하여 범위 이미지. 갤러리에 등록 된 200 명의 주제에 대한 검증 실험에서 동일한 200 명과 프로브 세트에 추가 68 명, 그들은 확인 비율을보고합니다. 98 %. 인식 실험에서 갤러리에 등록한 사람 30 명과 같은 사람 30 명 나중에 이미지화 한 것은 프로브 세트에 사용되었습니다. 50 %의 인식률은 잘못된 경보 비율이 0입니다.
Other researchers attempted to represent the 3D data in a different domain and made recognition comparison in the representative domain. Examples of those are 3D Principle Component Analysis (PCA) (Hesher et al., 2003), shape index (Lu et al., 2006), point signature (Chua et al., 2000), spine image (Johnson & Hebert, 1999), and local shape map (Wu et al., 2004). PCA is a statistical approach commonly used in recognition. One reason for using PCA is to reduce the dimensionality of the data, while sacrificing the performance of the recognition algorithm. (Hesher et al., 2003) explore PCA techniques using different number of eigenvectors, image sizes, and different expressions. They report a high recognition rate, but their system degrades if the expression of a test face is different from the expressions in the database.
다른 연구자들은 다른 영역에서 3D 데이터를 표현하려고 시도했고대표 도메인에서의 인식 비교. 그 예는 3D 원리입니다.성분 분석 (PCA) (Hesher et al., 2003), 형상 지수 (Lu et al., 2006), 포인트서명 (Chua et al., 2000), 척추 이미지 (Johnson & Hebert, 1999) 및 지역 모양지도(Wu et al., 2004). PCA는 인식에 일반적으로 사용되는 통계적 접근 방식입니다. 한가지 이유PCA를 사용하는 것은 성능을 희생하면서 데이터의 차원을 줄이는 것입니다.인식 알고리즘의. (Hesher et al., 2003) 다른고유 벡터의 수, 이미지 크기 및 다양한 표현. 그들은 높은그러나 테스트 얼굴의 표현이 데이터베이스의 표현과 다른 경우 시스템이 저하됩니다.(Xu et al., 2004a) slightly improved the recognition rate by computing a feature vector from the data in the local regions of the mouth, nose, left eye, and right eye. The dimensionality of the feature vector is reduced with PCA and matching is based on minimum Euclidean distance. Experiments on 120 subjects in the dataset resulted in 72% recognition rate, and on a subset of 30 subjects resulted in a 96% recognition rate. It should be remarked that the reported performance was obtained with five images of a person used for enrollment in the gallery. Performance is generally expected to be higher with more images used to enroll a person. (Pan et al., 2005) apply PCA to the range images using a novel mapping technique. Finding the nose tip to use as a center point, and an axis of symmetry to use for alignment, the face data are mapped to a circular range image. Experimental results are reported for the FRGC version 1.0 data set with 95% rank-one recognition rate and 2.8% Equal Error Rate (EER). Another example of a representative domain approach is the use of transform or wavelet. (Cook et al., 2006) present an approach based on Log-Gabor template for providing insensitivity to expression variation in range images. They decompose the facial image into overlapping 147 sub-jets (49 sub-regions and three scales) using Log-Gabor wavelets. For face verification, they use the Mahalanobis cosine distance measure and un-weighted summation to combine the result of classifying each region. Their experiments resulted in a 92.3 % rank-one recognition rate. (Xu et al., 2004a)는 다음과 같이 인식률을 약간 개선했습니다.입, 코, 왼쪽 눈의 로컬 영역에있는 데이터에서 특징 벡터 계산,그리고 오른쪽 눈. 특징 벡터의 차원은 PCA로 감소하고 일치는최소 유클리드 거리를 기준으로합니다. 데이터 세트의 120 명의 대상에 대한 실험 결과72 %의 인식률, 30 명의 피험자 하위 집합에서 96 %의 인식률을 기록했습니다. 그것보고 된 성능은 5 개의 이미지로 얻은 것임을 언급해야합니다.갤러리 등록에 사용 된 사람. 성능은 일반적으로 더 높을 것으로 예상됩니다.사람을 등록하는 데 더 많은 이미지가 사용되었습니다. (Pan et al., 2005) 범위 이미지에 PCA 적용새로운 매핑 기술을 사용합니다. 중심점과 축으로 사용할 코끝 찾기정렬에 사용할 대칭의 경우 얼굴 데이터가 원형 범위 이미지에 매핑됩니다.95 % 랭크 1의 FRGC 버전 1.0 데이터 세트에 대한 실험 결과가보고됩니다.인식률 및 2.8 % EER (Equal Error Rate). 대표자의 또 다른 예도메인 접근 방식은 변환 또는 웨이블릿을 사용하는 것입니다. (Cook et al., 2006)범위의 표현 변화에 무감각 성을 제공하기위한 Log-Gabor 템플릿 기반이미지. 그들은 얼굴 이미지를 147 개의 하위 제트 (49 개의 하위 영역과세 가지 척도) Log-Gabor 웨이블릿을 사용합니다. 얼굴 확인을 위해 Mahalanobis를 사용합니다.분류 결과를 결합하기위한 코사인 거리 측정 및 가중치없는 합계각 지역. 그들의 실험은 92.3 %의 1 위 인식률을 기록했습니다.
Model-based approaches use a priori facial model such as graph or mesh model. Graph representation has shown to be successful (Wiskott et al., 1997); (Blome, 2003). The idea is to use a graph to model the face with nodes and edges. The edges are labeled with distance information and nodes are labeled with local wavelet responses. However, the graph models in the literature have some limitations. For example, there is no justification for defining the edges of the graph. (Mahoor et al., 2008) improved a graph model which they refer to as Attributed Relational Graphs (ARG). The ARG is a geometric graph also with nodes and edges, where the nodes represent the facial landmarks and the edges connects the nodes based on Delaunay triangulation. A set of mutual relations between the sides of the triangles are defined in the model and are used in the recognition process in addition to the nodes and edges.
모델 기반 접근 방식은 그래프 또는 메시 모델과 같은 선험적 인 얼굴 모델을 사용합니다. 그래프대표는 성공적인 것으로 나타났다 (Wiskott et al., 1997); (Blome, 2003). 아이디어는그래프를 사용하여 노드와 간선으로 얼굴을 모델링합니다. 가장자리는 거리로 표시됩니다.정보 및 노드는 로컬 웨이블릿 응답으로 레이블이 지정됩니다. 그러나 그래프문헌의 모델에는 몇 가지 제한이 있습니다. 예를 들어,그래프의 가장자리를 정의합니다. (Mahoor et al., 2008) 그래프 모델을 개선하여ARG (Attributed Relational Graphs)를 참조하십시오. ARG는 또한 기하학적 그래프입니다노드와 가장자리, 여기서 노드는 얼굴 랜드 마크를 나타내고 가장자리는Delaunay 삼각 분할을 기반으로하는 노드. 측면 간의 상호 관계 집합삼각형은 모델에서 정의되며 인식 과정에서 사용됩니다.노드와 가장자리.
Mesh model approaches use a priori defined facial mesh which is usually morphed of deformed to a given face. A detailed example of this approach is illustrated in this chapter, which has the advantages of eliminating some of the previously stated problems of both the surface matching and the representative domain algorithms. Firstly, by representing the huge facial range data by a mesh model with smaller number of vertices, we reduce the amount of data points for facial processing, data storage, and recognition comparisons. Secondly, having a predefined and labeled-vertices in the deformed mesh model, establishes direct features correspondences between compared probe’s and gallery’s facial data. Hence faster recognition comparisons are achieved. Both the labeling of the model’s vertices and the data reduction, resulting from representing the face by the vertices of the model, are vital in reducing the complexity of the face recognition system.
메시 모델 접근 방식은 일반적으로 모핑 된 사전 정의 된 얼굴 메시를 사용합니다.주어진 얼굴로 변형되었습니다. 이 방법에 대한 자세한 예는이 장에 설명되어 있습니다.이전에 언급 한 두 문제의 일부를 제거 할 수있는 장점이 있습니다.표면 매칭 및 대표 도메인 알고리즘. 첫째,더 적은 수의 정점을 가진 메시 모델에 의한 거대한 안면 범위 데이터, 우리는안면 처리, 데이터 저장 및 인식 비교를위한 데이터 포인트의 양.둘째, 변형 된 메쉬 모델에 미리 정의되고 레이블이 지정된 정점이 있으면비교 프로브와 갤러리의 안면 데이터 간의 직접적인 특징 대응. 그 후더 빠른 인식 비교가 이루어집니다. 모델 정점의 레이블링과모델의 정점으로 얼굴을 표현함으로써 발생하는 데이터 감소는 다음과 같습니다.얼굴 인식 시스템의 복잡성을 줄이는 데 매우 중요합니다.
The presented method in this chapter is similar to work of (Xu et al., 2004b) but differs in the followings: (a) The method in this chapter uses a generic face mesh model and (Xu et al., 2004b) use a general mesh grid model, (b) here, the aligned model’s mesh triangles coordinate are deformed to the data and (Xu et al., 2004b) simply align the grid mesh coordinates to the range data then copy the z coordinate at each x and y coordinates, hence in their way the pose of the z coordinate is not considered, (c) the presented system establishes direct correspondences with other models in the database, hence direct comparison is achieved in recognition, while the method of (Xu et al., 2004b) has no correspondences and would require facial surface alignment and matching.
이 장에 제시된 방법은 (Xu et al., 2004b)의 작업과 유사하지만 다음과 같은 점이 다릅니다. (a)이 장의 방법은 일반적인면 메쉬 모델을 사용하고 (Xu et al., 2004b) 일반 메쉬 그리드 모델, (b) 여기서 정렬 된 모델의 메쉬 삼각형 좌표가 데이터로 변형되고 (Xu et al., 2004b) 그리드 메쉬 좌표를 범위 데이터에 정렬 한 다음 각 x 및 y에 z 좌표를 복사합니다. 따라서 z 좌표의 포즈는 고려되지 않습니다. (c) 제시된 시스템은 데이터베이스의 다른 모델과 직접 대응을 설정하므로 인식에서 직접 비교가 이루어지며 (Xu et al., 2004b)에는 대응이 없으며 얼굴 표면 정렬 및 일치가 필요합니다.
(Vetter & Blanz, 1999) proposed a face recognition algorithm based on computer graphics techniques, where they synthesize the 3D model of a face from a single 2D image of known orientation and illumination. However, their algorithm is computationally expensive and initially requires manual user assistance and a database of 200 different real scans of faces obtained from a 3D scanner. Correspondences across these 3D scans are pre-computed. The input face image is estimated as a linear combination of the projected 3D scans in the database; subsequently, the output 3D model is a linear combination of the 3D scans. Similar approach is proposed by (Jiang et al., 2004) which they referred to as analysis-by-synthesis 2D to 3D face reconstruction, in which they use a single frontal 2D image of the face with a database of 100 3D faces captured by 3D scanner. In this approach frontal face detection and alignment are utilized to locate a frontal face and the facial feature points within an image, such as the contour points of the face, left and right eyes, mouth, and nose. Then, the 3D face shape is reconstructed according to the feature points and a 3D face database. Next, the face model is textured-mapped by projecting the input 2D onto the 3D face shape. Finally, based on the resulting 3D model, virtual samples of 3D models are synthesized with pose and expression variations and are projected to 2D for recognition. (Hsu & Jain, 2001) adapts a generic face model to the facial features extracted from both registered range and color images.
(Vetter & Blanz, 1999) 컴퓨터 그래픽 기반의 얼굴 인식 알고리즘 제안 알려진 기술의 단일 2D 이미지에서 얼굴의 3D 모델을 합성하는 기술 방향 및 조명. 그러나 알고리즘은 계산 비용이 많이 들고 처음에는 수동 사용자 지원과 200 개의 서로 다른 실제 얼굴 스캔 데이터베이스가 필요합니다. 3D 스캐너에서 얻은. 이러한 3D 스캔에 대한 서신은 미리 계산됩니다. 그만큼 입력 얼굴 이미지는 투영 된 3D 스캔의 선형 조합으로 추정됩니다. 데이터 베이스; 결과적으로 출력 3D 모델은 3D 스캔의 선형 조합입니다. 비슷한 접근 방식은 (Jiang et al., 2004)에 의해 제안되었으며,이를 종합 분석이라고합니다. 2D에서 3D로 얼굴 재건, 그들은 얼굴의 단일 정면 2D 이미지를 사용하여 3D 스캐너로 캡처 한 100 개의 3D 얼굴 데이터베이스. 이 접근 방식에서 정면 얼굴 감지 및 정렬은 이미지 내에서 정면 얼굴과 얼굴 특징점을 찾는 데 사용됩니다. 얼굴, 왼쪽 및 오른쪽 눈, 입, 코의 윤곽 포인트와 같은. 그런 다음 3D 얼굴 형상은 특징점과 3D 얼굴 데이터베이스에 따라 재구성됩니다. 다음으로 얼굴 모델은 입력 2D를 3D 얼굴 모양에 투영하여 텍스처 매핑됩니다. 마지막으로 생성 된 3D 모델에서 3D 모델의 가상 샘플이 포즈 및 표현 변형 및 인식을 위해 2D로 투영됩니다. (Hsu & Jain, 2001) 등록 된 범위와 색상 모두에서 추출 된 얼굴 특징에 대한 일반적인 얼굴 모델 이미지.
The deformation iteratively moves the vertices of the mesh model using vertices displacement propagation. (Ansari & Abdel-Mottaleb., 2005) deformed a generic model to few 3D facial features obtained from one frontal and one profile view calibrated stereo images. The additional profile view complements and provides additional information not available in the frontal view. For 29 subjects, a recognition rate of 96.2 % is reported. In (Ansari et al., 2006) an improved modeling and recognition accuracy is presenting using dense range data obtained from two frontal and one profile view stereo images for 50 subjects attaining 98% recognition rate. 변형은 정점을 사용하여 메쉬 모델의 정점을 반복적으로 이동합니다.변위 전파. (Ansari & Abdel-Mottaleb., 2005)는 일반 모델을 다음과 같이 변형했습니다.하나의 정면 및 하나의 프로필 뷰에서 얻은 3D 얼굴 특징이 거의 없습니다.이미지. 추가 프로필보기는 추가 정보를 보완하고 제공합니다.정면에서 볼 수 있습니다. 29 명의 피험자의 경우 96.2 %의 인식률이보고됩니다. 에(Ansari et al., 2006) 개선 된 모델링 및 인식 정확도는50 개에 대해 2 개의 정면 및 1 개의 프로필 뷰 스테레오 이미지에서 얻은 조밀 한 범위 데이터98 %의 인식률을 달성 한 대상.
4. Data pre-processing and facial features extraction
This section explains the pre-processing of the data, localization of the facial region, and the facial features extraction. Further details are given in (Mahoor et al., 2007). Range images, captured by laser scanners, have some artifacts, noise, and gaps. In the pre-processing step, we first apply median filtering to remove sharp spikes and noise, that occur during the scanning of the face, followed by interpolation to fill up the gaps, and low pass filtering to smooth the final surface. This is followed by face localization using facial template matching to discard the neck, hair, and the background areas of the range image. The facial range image template is correlated with the range images of a given face using normalized crosscorrelation. We start by roughly detecting the location of the nose tip and then translate the template such that the detected tip of the nose is placed on the location of the nose tip of the range image under test. Afterward, we iteratively apply a rigid transformation to the template and cross-correlate the result with the subject’s range image to find the best pose. Finally, the area underneath the template with the maximum correlation is considered as the localized facial region.
4. 데이터 전처리 및 얼굴 특징 추출이 섹션에서는 데이터 전처리, 얼굴 영역의 현지화 및얼굴 특징 추출. 자세한 내용은 (Mahoor et al., 2007)에 나와 있습니다. 범위 이미지,레이저 스캐너로 캡처하면 일부 아티팩트, 노이즈 및 간격이 있습니다. 전처리 단계에서먼저 중앙값 필터링을 적용하여 급격한 스파이크와 노이즈를 제거합니다.얼굴 스캔, 간격을 메우기위한 보간, 저역 통과 필터링최종 표면을 매끄럽게합니다. 얼굴 템플릿 매칭을 사용하여 얼굴 현지화가 이어집니다.범위 이미지의 목, 머리카락 및 배경 영역을 버립니다. 얼굴 범위이미지 템플릿은 정규화 된 상호 상관을 사용하여 주어진 얼굴의 범위 이미지와 상관됩니다. 코끝의 위치를 대략적으로 감지 한 다음감지 된 코끝이 코끝의 위치에 놓 이도록 템플릿테스트중인 범위 이미지. 이후에 우리는 반복적으로 엄격한 변형을템플릿을 사용하고 결과를 피사체의 범위 이미지와 상호 연관시켜 최상의 포즈를 찾습니다.마지막으로 최대 상관 관계가있는 템플릿 아래 영역은국부적 인 얼굴 영역.
Subsequently, we use Gaussian curvature to extract the two inner corners of the eyes and the tip of the nose. The surface that either has a peak or a pit shape has a positive Gaussian curvature value K > 0 (Dorai & Jain, 1997). Each of the two inner corners of the eyes has a pit surface type and the tip of the nose has a peak surface type that is detectable based on the Gaussian curvature. These points have the highest positive Gaussian curvature values among the points on the face surface. Fig.2.a shows the result of calculating the Gaussian curvature for one of the sample range images in the gallery.
그 후 가우스 곡률을 사용하여 눈의 안쪽 모서리 2 개와 코 끝 부분을 추출합니다. 피크 또는 구덩이 모양을 가진 표면은 양의 가우스 곡률 값 K> 0을 갖습니다 (Dorai & Jain, 1997). 눈의 두 안쪽 모서리는 각각 구덩이 표면 유형이고 코 끝은 가우시안 곡률을 기반으로 감지 할 수있는 피크 표면 유형입니다. 이러한 점은면 표면의 점 중에서 가장 높은 양의 가우스 곡률 값을 갖습니다. 그림 2a는 갤러리의 샘플 범위 이미지 중 하나에 대한 가우스 곡률을 계산 한 결과를 보여줍니다.
The highest points in Fig.2.a correspond to the points with pit/peak shape. We threshold the Gaussian curvature to find the areas that have positive values greater than a threshold, producing a binary image. See Fig.2.b. The threshold is calculated based on a small training data set different from the images used in the recognition experiments. Finally, the three regions with the largest average value of the Gaussian curvature are the candidate regions that include the feature points. The locations of the points with maximum Gaussian curvature in these regions are labeled as feature points. Fig.2.c shows a final result of the three feature extraction points. These features are used in the 3D model alignment as we show next.
그림 2a에서 가장 높은 지점은 피트 / 피크 모양의 지점에 해당합니다. 우리는가우스 곡률을 사용하여 임계 값보다 큰 양의 값을 갖는 영역을 찾습니다.이진 이미지를 생성합니다. 그림 2.b를 참조하십시오. 임계 값은 소규모 교육을 기반으로 계산됩니다.인식 실험에 사용 된 이미지와 다른 데이터 세트. 마지막으로 세가우스 곡률의 평균값이 가장 큰 영역은 다음과 같은 후보 영역입니다.특징점을 포함합니다. 최대 가우스 곡률이있는 점의 위치이러한 영역은 특징점으로 레이블이 지정됩니다. 그림 2.c는 세 가지 기능의 최종 결과를 보여줍니다.추출 지점. 이러한 기능은 다음에 표시 할 3D 모델 정렬에 사용됩니다.
5. 3D face modeling This section deals with modeling the human face using its extracted features and a generic 3D mesh model. The idea is to align the 3D model to a given face using the extracted 3D features then proceed with fitting the aligned triangles of the mesh to the range data, using least square plane fitting. Next, the aligned triangles of the model are subdivided to higher resolution triangles, before applying a second round of plane fitting, to obtain a more realistic and a smoother fitted surface resembling the actual surface of the face. Fig.3.a shows our neutral 3D model with a total of 109 labeled feature vertices and 188 defined polygonal meshes. In addition, the model is designed such that the left and right sides of the jaw fall within but not on the edges of the face boundary. This approach avoids incorporating inaccurate data at the facial edges of the captured range images. We explain next the process of aligning the mesh model to the range data.
5. 3D 얼굴 모델링
이 섹션에서는 추출 된 기능과 일반적인3D 메쉬 모델. 아이디어는 추출 된 3D를 사용하여 주어진 얼굴에 3D 모델을 정렬하는 것입니다.그런 다음 기능을 사용하여 메쉬의 정렬 된 삼각형을 범위 데이터에 맞추는 작업을 진행합니다.최소 사각 평면 피팅. 다음으로 모델의 정렬 된 삼각형이 더 높은 값으로 세분됩니다.더 많은 것을 얻기 위해 두 번째 평면 피팅 라운드를 적용하기 전에 해상도 삼각형얼굴의 실제 표면과 닮은 현실적이고 매끄럽게 맞는 표면. 그림 3.a총 109 개의 레이블이 지정된 피쳐 정점과 188 개의 정의 된 중립 3D 모델을 보여줍니다.다각형 메쉬. 또한 모델은 왼쪽과 오른쪽이턱은 얼굴 경계의 가장자리에 속하지 않습니다. 이 접근 방식은캡처 된 범위 이미지의 얼굴 가장자리에 부정확 한 데이터를 통합합니다. 우리는 설명합니다다음으로 메쉬 모델을 범위 데이터에 정렬하는 과정입니다.
5.1 Global alignment In the global alignment step, we rigidly align the 3D model using the three 3D feature points, PI, obtained from the range image, and their corresponding feature vertices, PM, in the model. Subscripts I and M indicate image features and model vertices, respectively. To achieve this goal, the model must be rotated, translated, and scaled. Eq.1 gives the sum squared error between PI and PM in terms of scale S, rotation R, and translation T for n = 3 points.
5.1 글로벌 정렬 전역 정렬 단계에서는 세 가지 3D 기능을 사용하여 3D 모델을 엄격하게 정렬합니다. 범위 이미지에서 얻은 포인트, PI 및 해당 기능 정점 PM, 모델. 아래 첨자 I와 M은 각각 이미지 특징과 모델 정점을 나타냅니다. 에 이 목표를 달성하려면 모델을 회전, 변환 및 크기 조정해야합니다. 식 1은 합계를 제공합니다 스케일 S, 회전 R 및 n = 3에 대한 변환 T 측면에서 PI와 PM 사이의 제곱 오차 포인트들.
An example of the aligned 3D model to the range data is demonstrated in Fig.3.b and Fig.3.c for 2D view and 3D view, respectively. As shown in the figures, the triangles of the model are buried either totally or partially above or below the 3D data. We show next how to segment the 3D data points within the aligned 3D model.
범위 데이터에 정렬 된 3D 모델의 예는 그림 3.b 및 그림 3.c에 나와 있습니다.2D보기 및 3D보기에 대해 각각. 그림에서 볼 수 있듯이 모델의 삼각형은전체 또는 부분적으로 3D 데이터 위 또는 아래에 묻혀 있습니다. 다음 방법을 보여줍니다정렬 된 3D 모델 내에서 3D 데이터 포인트를 분할합니다.
5.2 3D facial points segmentation The first step prior to deforming the model is to segment and extract the 3D data points facing (above, below, or within) each mesh triangle using a computer graphic technique referred to as Barycentric Coordinate (Coxeter, 1969). A barycentric combination of three point vertices P1, P2, and P3, forming a triangular plane is shown in Fig.4
5.2 3D 얼굴 점 분할
모델을 변형하기 전 첫 번째 단계는 3D 데이터 포인트를 분할하고 추출하는 것입니다. 컴퓨터 그래픽 기술을 사용하여 각 메쉬 삼각형을 마주보고 (위, 아래 또는 내부) Barycentric Coordinate (Coxeter, 1969)라고합니다. 3 점의 무게 중심 조합 삼각형 평면을 형성하는 꼭지점 P1, P2 및 P3은 그림 4에 나와 있습니다.
Therefore, p lies inside the triangle and we say [u, v, w] are the barycentric coordinates of p with respect to p1, p2, and p3 respectively. Equivalently, we may write Eq.3 represents three equations and thus we can form a linear system given by Eq.4
따라서 p는 삼각형 안에 있고 [u, v, w]는 p의 무게 중심 좌표라고 말합니다.p1, p2 및 p3에 대해 각각. 동등하게, 우리는 Eq.3 .Eq.3은 세 개의 방정식을 나타내므로 [u, v, w]의 미지수에 대해 풀 수있는 Eq.4에 의해 주어진 선형 시스템을 형성 할 수 있습니다. 삼각형 안의 점은 양의 u, v,및 w. 반면에 삼각형 외부의 점에는 적어도 하나의 음의 좌표가 있습니다.Eq.4는 메쉬 모델의 188 개 삼각형 각각이모든 범위 데이터 좌표를 확인하여 좌표 포인트 여부를 결정합니다.모두 내부에 포함됩니다. 실용적인 구현은 다음으로 둘러싸인 데이터를 윈도우하는 것입니다.그림 5와 같은 삼각형 좌표. 직사각형 내의 점 좌표 만Eq.4에 적용됩니다.
Figure 6 shows a 2D view of an actual 3D mesh model, superimposed on the range data points. The figure shows an example of segmented 3D data points within one triangle of the eyebrow meshes. We show next how to fit and deform the model’s triangles to be as closely as possible to the 3D data.
그림 6은 실제 3D 메쉬 모델의 2D 뷰를 범위 데이터에 겹쳐서 보여줍니다.포인트들. 그림은 삼각형의 한 삼각형 내에서 분할 된 3D 데이터 포인트의 예를 보여줍니다.눈썹 메시. 다음으로 모델의 삼각형을 가깝게 맞추고 변형하는 방법을 보여줍니다.3D 데이터에 가능한 한.
5.3 3D face model deformations Once the cloud of the 3D data points is segmented by the barycentric coordinate, they are represented by a plane using least square fitting. The general equation of a plane, with nonzero normal vector N, is defined in 3D as eq.5
5.3 3D 얼굴 모델 변형3D 데이터 포인트의 구름이 무게 중심 좌표에 의해 분할되면최소 평방 피팅을 사용하는 평면으로 표시됩니다. 0이 아닌 법선 벡터 N을 갖는 평면의 일반 방정식은 3D에서 식 5로 정의됩니다.
For n number of points, Eq.5 can be written in least square form as where the coordinates (Xi,Yi,Zi)’s are those of all the data points segmented by the barycentric coordinate. Eq.6 can be solved for the plane equation parameters, B = [a, b, c, d], which is then substituted in Eq.5, leading to a plane representing the 3D data points. Fig.7.a illustrates a concept example of a triangle with 3D data points in 3D space. Fig.7.b shows the segmented data within the triangle which are represented by a plane using Eq.5. From the mathematical geometry of a plane, having the parameters of B, any point on the plane can be evaluated. In this work, we deform each corresponding mesh triangle to the 3D data points, by first discarding the three vertices Z coordinates, evaluating the X and Y coordinates, and solving for the new Z coordinate (given the parameters in B from Eq.6). This produces a mesh triangle, with new depth coordinates, lying on the plane that is approximated by the dense 3D data points. Fig.7.c shows the concept of deforming the mesh triangle to the plane representing the data. Essentially, the pose of the triangle is changed to match that of the plane.
n 개의 포인트에 대해 Eq.5는 좌표 (Xi, Yi, Zi)가 무게 중심 좌표로 분할 된 모든 데이터 포인트의 좌표 인 최소 제곱 형식으로 작성할 수 있습니다. Eq.6은 평면 방정식 매개 변수 B = [a, b, c, d]에 대해 풀 수 있으며, 그런 다음 Eq.5로 대체되어 3D 데이터 포인트를 나타내는 평면이됩니다. 그림 7a는 3D 공간에서 3D 데이터 포인트가있는 삼각형의 개념 예를 보여줍니다. 그림 7.b는 Eq.5를 사용하여 평면으로 표현되는 삼각형 내의 분할 된 데이터를 보여줍니다. 매개 변수가 B 인 평면의 수학적 기하학에서 평면의 모든 점을 평가할 수 있습니다. 이 작업에서는 먼저 세 개의 정점 Z 좌표를 버리고, X 및 Y 좌표를 평가하고, 새로운 Z 좌표를 구하여 각 해당 메시 삼각형을 3D 데이터 포인트로 변형합니다 (식 6에서 B의 매개 변수가 주어짐). . 이렇게하면 조밀 한 3D 데이터 포인트로 근사 된 평면에 새로운 깊이 좌표가있는 메시 삼각형이 생성됩니다. 그림 7.c는 메쉬 삼각형을 데이터를 나타내는 평면으로 변형하는 개념을 보여줍니다. 기본적으로 삼각형의 포즈는 평면의 포즈와 일치하도록 변경됩니다.
Subsequently, we repeat the deformation process to all the triangles of the mesh model. Fig.8. shows an example of a complete deformed model superimposed on the data in 2D and 3D views. Comparing Fig.8.a-b with the initially aligned model of Fig.3.c-d, we see that the deformation and fitting of the model to the range data are clearly observed. The triangles of the mesh model have come closer to the data. The deformed model of Fig.8 is a good representation of the data, yet it’s not smooth enough to represent the high resolution and curvatures of the 3D data. In the next step, we subdivide the triangles of the model to a higher resolution in a manner shown in Fig.9.a. New vertices are computed based on the locations of the deformed vertices. Fig. 9.b shows the result of subdividing the deformed model of Fig.8. This process increases the number of vertices and triangles (meshes) of the original model from 109 and 188, respectively, to 401 vertices and 752 polygonal meshes.
그 후 메쉬 모델의 모든 삼각형에 대해 변형 프로세스를 반복합니다.그림 8. 2D 데이터에 겹쳐진 완전한 변형 모델의 예를 보여줍니다.및 3D보기. 그림 8.a-b와 그림 3.c-d의 초기 정렬 모델을 비교하면범위 데이터에 대한 모델의 변형 및 피팅이 명확하게 관찰됩니다. 그만큼메쉬 모델의 삼각형이 데이터에 더 가까워졌습니다.그림 8의 변형 된 모델은 데이터를 잘 표현하지만 부드럽 지 않습니다.3D 데이터의 고해상도와 곡률을 표현하기에 충분합니다. 다음 단계에서는그림 9.a에 표시된 방식으로 모델의 삼각형을 더 높은 해상도로 세분화합니다.새 정점은 변형 된 정점의 위치를 기반으로 계산됩니다. 그림 9.b는그림 8의 변형 된 모델을 세분화 한 결과. 이 프로세스는원래 모델의 정점과 삼각형 (메쉬)은 각각 109와 188에서 401까지정점 및 752 다각형 메쉬.
Finally, because the new triangles do not reflect actual deformation to the data, we deform them once again using the same deformation process explained above.
The introduction of smaller triangles gives more effective triangle fitting of the data especially at areas of high curvatures. Fig. 10.a-b-c show the final result of the deformed model, superimposed on the data in 2D view, 3D view, and a profile 2D view, respectively. In Fig.10.a-b-c, because most of the models’ vertices are embedded within the data, we use the “*” symbol to clearly show their locations. Fig.10.d shows a profile (YZ-axis) view of the model in Fig.10.c without the data. This deformed model, containing 401 vertices points, is the final representation of the facial data, which originally contained about 19,000 points (based on an average range image size of 150 by 130). This is nearly a 98 % data reduction. We summarize below the 3D mesh model deformation algorithm: a. Given an aligned 3D mesh model to the facial range data, extract the 3D points within each triangle of the mesh model using the barycentric coordinate approach. b. For each triangle, fit a plane to the extracted 3D data points and solve for the B parameters in Eq.6.
마지막으로 새로운 삼각형은 실제 변형을 데이터에 반영하지 않기 때문에 위에서 설명한 것과 동일한 변형 프로세스를 사용하여 다시 한 번 변형합니다.더 작은 삼각형을 도입하면 특히 곡률이 높은 영역에서 데이터의보다 효과적인 삼각형 피팅이 제공됩니다. 그림 10.a-b-c는 변형 된 모델의 최종 결과를 각각 2D보기, 3D보기 및 프로필 2D보기의 데이터에 겹쳐서 보여줍니다. 그림 10.a-b-c에서는 대부분의 모델 정점이 데이터에 포함되어 있으므로 "*"기호를 사용하여 위치를 명확하게 표시합니다. 그림 10.d는 데이터가없는 그림 10.c의 모델의 프로필 (YZ 축)보기를 보여줍니다. 401 개의 정점 점을 포함하는이 변형 된 모델은 원래 약 19,000 개의 점이 포함 된 얼굴 데이터의 최종 표현입니다 (평균 범위 이미지 크기 150 x 130 기준). 이는 거의 98 %의 데이터 감소입니다. 3D 메쉬 모델 변형 알고리즘은 아래에 요약되어 있습니다. 안면 범위 데이터에 정렬 된 3D 메쉬 모델이 주어지면 무게 중심 좌표 접근 방식을 사용하여 메쉬 모델의 각 삼각형 내에서 3D 점을 추출합니다. 비. 각 삼각형에 대해 추출 된 3D 데이터 포인트에 평면을 맞추고 식 6에서 B 매개 변수를 구합니다.c. For each of the three vertices of the mesh triangle, solve for the unknown Z coordinate by evaluating the coordinates of X, Y, and B parameters in Eq.5. This fits the triangle on the plane. d. Repeat steps (b) to (c) for all the mesh triangles of the model. e. Subdivide the resulting model and repeat steps (a) to (d). f. Further subdivision is possible depending on the resolution, quality, or accuracy of the captured range data points. We show next the application of the deformed model in 3D face recognition. 씨. 메쉬 삼각형의 세 꼭지점 각각에 대해 알 수없는 Z 좌표를 구합니다.식 5에서 X, Y, B 매개 변수의 좌표를 평가하여. 이것은 삼각형에 맞습니다.비행기.디. 모델의 모든 메쉬 삼각형에 대해 (b) ~ (c) 단계를 반복합니다.이자형. 결과 모델을 세분화하고 (a) ~ (d) 단계를 반복합니다.에프. 해상도, 품질 또는 정확도에 따라 추가 세분화가 가능합니다.캡처 된 범위 데이터 포인트.다음은 3D 얼굴 인식에서 변형 된 모델의 적용을 보여줍니다.
6. 3D face recognition Face recognition has received great attentions in the past few years. A recent literature survey for 3D face recognition is given by (Bowyer et al., 2006). The final result of Fig.10 gives a model with 401 deformed vertices specific to a given subject’s 3D range data. In this section we explore for different subjects the use of the deformed final models in 3D face recognition. The recognition score is based on a decision level classifier applied to the deformed models obtained from ranges images of a public database. 6.1 Range image database The range images we use in this chapter are obtained from the publicly available GAVAB database captured by a 3D scanner (Moreno & Sanchez, 2004). This database contains seven facial range images of 61 subjects: two frontal images with normal expression, two images looking up and down, and three images with facial expression. Many subjects contain instances of dark regions in the face which do not reflect successful 3D scanning, producing in these cases incomplete facial surfaces. As a result, range image pre-processing and filtering are necessary preliminary steps. In this chapter, we are only concerned with modeling and recognizing the frontal images of the database under neutral expressions. Figure 11 contains an example of two views of the texture and range images of one subject. The texture images are not publicly available. For both sets of the frontal range images we obtain the 3D face models as outlined in previous section. One model is used as a query (probe) and the other model is used in the gallery (database). We explain next the recognition technique.
6. 3D 얼굴 인식
얼굴 인식은 지난 몇 년 동안 큰 관심을 받았습니다. 3D 얼굴 인식에 대한 최근 문헌 조사는 (Bowyer et al., 2006)에 의해 제공됩니다. 그림 10의 최종 결과는 주어진 피사체의 3D 범위 데이터에 특정한 401 개의 변형 된 정점이있는 모델을 제공합니다. 이 섹션에서는 3D 얼굴 인식에서 변형 된 최종 모델의 사용에 대해 다양한 주제에 대해 살펴 봅니다. 인식 점수는 공개 데이터베이스의 범위 이미지에서 얻은 변형 된 모델에 적용된 결정 수준 분류기를 기반으로합니다. 6.1 범위 이미지 데이터베이스이 장에서 사용하는 범위 이미지는 3D 스캐너로 캡처 한 공개적으로 사용 가능한 GAVAB 데이터베이스에서 얻은 것입니다 (Moreno & Sanchez, 2004). 이 데이터베이스에는 61 명의 피사체에 대한 얼굴 범위 이미지 7 개 (정상 표정의 정면 이미지 2 개, 위아래를 보는 이미지 2 개, 표정 이미지 3 개)가 포함되어 있습니다. 많은 피사체에는 성공적인 3D 스캐닝을 반영하지 않는 얼굴의 어두운 영역이 포함되어있어 이러한 경우 얼굴 표면이 불완전합니다. 결과적으로 범위 이미지 전처리 및 필터링이 필요한 예비 단계입니다. 이 장에서 우리는 중립적 표현 하에서 데이터베이스의 정면 이미지를 모델링하고 인식하는 데에만 관심이 있습니다. 그림 11에는 한 피사체의 텍스처 및 범위 이미지에 대한 두 가지보기의 예가 포함되어 있습니다. 텍스처 이미지는 공개적으로 사용할 수 없습니다. 두 세트의 정면 범위 이미지에 대해 이전 섹션에서 설명한대로 3D 얼굴 모델을 얻습니다. 한 모델은 쿼리 (프로브)로 사용되고 다른 모델은 갤러리 (데이터베이스)에서 사용됩니다. 다음으로 인식 기술에 대해 설명합니다.
6.2 Decision level fused classifiers In the recognition stage of Fig.1, a query face model is aligned with all faces in the database and then classified for recognition based on Euclidian distance and voting classifiers. We compute the identification rate using the fusion of both Euclidean distance-based and voting-based classifiers at the decision level of the recognition system. Fig.12 shows a block diagram of the decision level classifier. The Euclidean distance classifier, even though widely used, its performance can be greatly degraded in the presence of noise. The degradation is due to the equal summation of squared distances over all the features. Any noisy feature with a large distance can mask all other features and as a result the classification considers only the noisy feature, neglecting the information provided by the other features. To overcome this drawback, we use a voting classifier to decide on the final score of the recognition system. The voting classier counts the maximum number of minimum distances of the features between corresponding features points. In this case the feature points are the 401 deformed vertices of the mesh model. In the voting classifier a face is recognized when it has the maximum number of feature (votes) when compared with the corresponding features of the other subjects in the database. In the presented algorithm, when a query face model is given to the recognition system of Fig.12, it runs through both classifiers; a direct decision for a recognized face is made only when both classifiers’ outputs agree on the same recognized face in the database (E=V1 in Fig.12). If the two classifiers are in disagreement, then a different procedure is taken before a final decision is made. In this case, the probe face is directly compared with the recognized face by the Euclidean and the voting classifier, using the voting approach. As a result, the second voting classifier is comparing only two faces. This approach reduces wrong decisions that might be taken by the Euclidean distance classifier, because of possible masking of noisy feature(s), and reroutes the final decision to another voting classifier for final recognition decision. In a scenario when both classifiers actually have the wrong decision, then there is no other clue and a wrong face is falsely recognized.
6.2 결정 수준 융합 분류기
그림 1의 인식 단계에서 쿼리 얼굴 모델은 데이터베이스의 모든 얼굴과 정렬 된 다음 유클리드 거리 및 투표 분류기를 기준으로 인식을 위해 분류됩니다. 우리는 인식 시스템의 결정 수준에서 유클리드 거리 기반 및 투표 기반 분류기의 융합을 사용하여 식별 률을 계산합니다. 그림 12는 결정 수준 분류기의 블록 다이어그램을 보여줍니다. 유클리드 거리 분류기는 널리 사용되지만 잡음이있는 경우 성능이 크게 저하 될 수 있습니다. 성능 저하는 모든 기능에 대한 거리 제곱의 동일한 합계 때문입니다. 거리가 먼 노이즈 특징은 다른 모든 특징을 마스킹 할 수 있으며 결과적으로 분류는 노이즈 특징 만 고려하고 다른 특징에서 제공하는 정보는 무시합니다. 이 단점을 극복하기 위해 투표 분류기를 사용하여 인식 시스템의 최종 점수를 결정합니다. 투표 분류자는 해당 기능 포인트 사이의 기능 최소 거리의 최대 수를 계산합니다. 이 경우 특징점은 메쉬 모델의 401 변형 된 정점입니다. 투표 분류기에서 얼굴은 데이터베이스에있는 다른 주제의 해당 기능과 비교할 때 최대 기능 (투표) 수가있을 때 인식됩니다. 제시된 알고리즘에서 질의 얼굴 모델이 그림 12의 인식 시스템에 주어지면 두 분류자를 통해 실행됩니다. 인식 된 얼굴에 대한 직접적인 결정은 두 분류 자의 출력이 데이터베이스에서 동일한 인식 된 얼굴에 대해 일치 할 때만 내려집니다 (그림 12에서 E = V1). 두 분류자가 의견이 일치하지 않으면 최종 결정이 내려지기 전에 다른 절차가 수행됩니다. 이 경우, 투표 접근 방식을 사용하여 유클리드 및 투표 분류기에서 인식 된 얼굴과 프로브 얼굴을 직접 비교합니다. 결과적으로 두 번째 투표 분류기는 두 얼굴 만 비교합니다. 이 접근 방식은 잡음이있는 기능의 마스킹 가능성으로 인해 유클리드 거리 분류기에서 취할 수있는 잘못된 결정을 줄이고 최종 인식 결정을 위해 최종 결정을 다른 투표 분류기로 다시 라우팅합니다. 두 분류자가 실제로 잘못된 결정을 내리는 시나리오에서는 다른 단서가 없으며 잘못된 얼굴이 잘못 인식됩니다.
6.3 Face recognition experiments
Following the procedure illustrated by the recognition stage in Fig.1 and the classifier of Fig.12, we test the recognition algorithm seperately using the Euclidian distance-based classifier, the voting-based classifier, and the fused classifier of the recognition system. Fig.13 shows the overall Cumulative Match Curve (CMC) identification rate for the 61 subjects of the GAVAB database. From the performance figure, the fused rank one identification rate achieves a 90.2% compared to a lower single classifier rate of 85.2% or 65.6% by the Euclidean or the voting classifier, respectively. The fusion obviously gives superior performance at all ranks. It has been reported that the same database was used in (Moreno et al., 2003) achieving 78 % rank one identification rate for 60 out of 61 subjects using 68 curvature-based extracted features.
Similarly, testing the system in the verification mode, Fig.14 shows the Receiver Operating Characteristic ROC performance curves of the recognition system. At false acceptance rates of 0.1% and 1%, the fused result of the recognition system acheieves genuine acceptance rates of 76% and 92%, respectively.
6.3 얼굴 인식 실험 그림 1의 인식 단계와 그림 12의 분류기에서 설명한 절차에 따라 유클리드 거리 기반 분류기, 투표 기반 분류기 및 통합 분류기를 사용하여 인식 알고리즘을 개별적으로 테스트합니다. 인식 시스템. 그림 13은 GAVAB 데이터베이스의 61 명의 피험자에 대한 전체 CMC (Cumulative Match Curve) 식별 률을 보여줍니다. 성능 수치에서 통합 랭크 1 식별 률은 유클리드 또는 투표 분류기에서 각각 85.2 % 또는 65.6 %의 낮은 단일 분류 자 비율에 비해 90.2 %를 달성합니다. 융합은 분명히 모든 등급에서 우수한 성능을 제공합니다. 68 개의 곡률 기반 추출 기능을 사용하여 61 명의 피험자 중 60 명에 대해 78 % 랭크 1 식별 률을 달성하는 데 동일한 데이터베이스가 사용 된 것으로보고되었습니다 (Moreno et al., 2003). 마찬가지로, 검증 모드에서 시스템을 테스트하면 그림 14는 인식 시스템의 수신기 작동 특성 ROC 성능 곡선을 보여줍니다. 0.1 % 및 1 %의 허위 수용 률에서 인식 시스템의 융합 결과는 각각 76 % 및 92 %의 실제 수용 률을 달성합니다.
7. Conclusion and discussion
A model-based algorithm for 3D face recognition from range images is presented. The algorithm relies on deforming the triangular meshes of the model to the range data establishing direct model vertices correspondences with other deformed models in the database. These features correspondences greatly facilitate faster computational time, accuracy, and recognition comparisons. By only detecting three facial features and a generic model, we achieved a 90.2% rank one identification rate using a noisy database. The presented method is proved to be useful for face recognition. However, the method can also be sensitive to noisy or missing data under the mesh model. In the conducted experiments, six subjects out of the 61 were not correctly recognized. The wrong recognition was mainly due to the dataset being either very noisy, incomplete, or the query range image set looks very different from the database set. Unfortunately, the range data pre-processing and filtering, presented in section 4, cannot always cope with large areas of holes or spikes. Fig.15 shows four of the six subjects that were not correctly recognized. Both the query and database sets of Fig.15.a show noisy and incomplete facial scan at the left and right side of the face. Fig.15.b shows similar incomplete data at the eye location. Fig.15.c and Fig.15.d show not only noisy data but also facial expression between the compared query and database images. These factors make the query set of images very different from the database set. In order to demonstrate the robustness of the presented algorithm, better data or another database must be attempted on a large scale datasets captured by high quality 3D scanners. The noise introduced around the subjects’ eyes of all subjects in Fig.15 is typical of a lower quality and an older type of 3D scanners. At the time of publishing this chapter, the authors are in process of obtaining a license for the Face Recognition Grand Challenge (FRGC) database (Phillips et al., 2005) in order to apply the algorithm to a much better and cleaner database.
7. 결론 및 논의
범위 이미지에서 3D 얼굴 인식을위한 모델 기반 알고리즘이 제시됩니다. 알고리즘은 모델의 삼각형 메쉬를 범위 데이터로 변형하여 데이터베이스의 다른 변형 된 모델과 직접 모델 정점 대응을 설정합니다. 이러한 기능 대응은 더 빠른 계산 시간, 정확성 및 인식 비교를 크게 촉진합니다. 세 가지 얼굴 특징과 일반 모델 만 감지하여 잡음이있는 데이터베이스를 사용하여 90.2 % 1 순위 식별 률을 달성했습니다. 제시된 방법은 얼굴 인식에 유용한 것으로 입증되었습니다. 그러나이 방법은 메시 모델에서 노이즈가 있거나 누락 된 데이터에 민감 할 수도 있습니다. 실시한 실험에서 61 명 중 6 명은 제대로 인식되지 않았다. 잘못된 인식은 주로 데이터 세트가 매우 시끄 럽거나 불완전하거나 쿼리 범위 이미지 세트가 데이터베이스 세트와 매우 다르게 보이기 때문입니다. 안타깝게도 섹션 4에 제시된 범위 데이터 사전 처리 및 필터링은 넓은 영역의 구멍이나 스파이크에 항상 대처할 수는 없습니다. 그림 15는 올바르게 인식되지 않은 6 개의 주제 중 4 개를 보여줍니다. 그림 15.a의 쿼리 및 데이터베이스 세트는 모두 얼굴의 왼쪽과 오른쪽에서 시끄럽고 불완전한 얼굴 스캔을 보여줍니다. 그림 15.b는 눈 위치에서 유사한 불완전한 데이터를 보여줍니다. 그림 15.c 및 그림 15.d는 시끄러운 데이터뿐만 아니라 비교 된 쿼리와 데이터베이스 이미지 사이의 표정도 보여줍니다. 이러한 요인으로 인해 이미지 쿼리 세트가 데이터베이스 세트와 매우 다릅니다. 제시된 알고리즘의 견고성을 입증하려면 고품질 3D 스캐너로 캡처 한 대규모 데이터 세트에서 더 나은 데이터 또는 다른 데이터베이스를 시도해야합니다. 그림 15에서 모든 피사체의 눈 주위에 도입 된 노이즈는 일반적으로 낮은 품질과 구형 3D 스캐너 유형입니다. 이 장을 발행 할 당시 저자는 알고리즘을 훨씬 더 좋고 깨끗한 데이터베이스에 적용하기 위해 FRGC (Face Recognition Grand Challenge) 데이터베이스 (Phillips et al., 2005)에 대한 라이선스를 취득하는 과정에 있습니다.