지도학습/얼굴분석

Surface Feature Detection and Description with Applications to Mesh Matching, 2009

cl2020 2021. 3. 29. 20:48

Surface Feature Detection and Description with Applications to Mesh Matching

메시 매칭에 대한 애플리케이션을 통한 표면 특징 감지 및 설명

 

Abstract

In this paper we revisit local feature detectors/descriptors developed for 2D images and extend them to the more general framework of scalar fields defined on 2D manifolds. We provide methods and tools to detect and describe features on surfaces equiped with scalar functions, such as photometric information. This is motivated by the growing need for matching and tracking photometric surfaces over temporal sequences, due to recent advancements in multiple camera 3D reconstruction. We propose a 3D feature detector (MeshDOG) and a 3D feature descriptor (MeshHOG) for uniformly triangulated meshes, invariant to changes in rotation, translation, and scale. The descriptor is able to capture the local geometric and/or photometric properties in a succinct fashion. Moreover, the method is defined generically for any scalar function, e.g., local curvature. Results with matching rigid and non-rigid meshes demonstrate the interest of the proposed framework.

이 백서에서는 2D 이미지 용으로 개발 된 로컬 기능 탐지기 / 설명자를 다시 살펴보고 2D 매니 폴드에 정의 된보다 일반적인 스칼라 필드 프레임 워크로 확장합니다. 포토 메트릭 정보와 같은 스칼라 함수가 장착 된 표면의 특징을 감지하고 설명하는 방법과 도구를 제공합니다. 이는 최근 다중 카메라 3D 재구성의 발전으로 인해 시간적 시퀀스에 대한 포토 메트릭 표면을 일치시키고 추적해야 할 필요성이 증가함에 따라 동기가 부여되었습니다. 회전, 평행 이동 및 배율의 변화에 ​​불변하는 균일 한 삼각 망 메시에 대한 3D 기능 탐지기 (MeshDOG) 및 3D 기능 설명자 (MeshHOG)를 제안합니다. 디스크립터는 간결한 방식으로 로컬 기하학적 및 / 또는 측광 속성을 캡처 할 수 있습니다. 또한이 방법은 모든 스칼라 함수 (예 : 국소 곡률)에 대해 일반적으로 정의됩니다. 강체와 비 강체 메시가 일치하는 결과는 제안 된 프레임 워크의 관심을 보여줍니다.

 

1. Introduction

The detection, characterization, and matching of various 2D or 3D features from visual observations is of great importance for a large variety of applications such as modeling, tracking, recognition or indexing, among others. The vast majority of existing methods detect features using either photometric information available with 2D images or geometric information available with 3D surfaces. However, recent progress in image based 3D modeling and rendering allows to recover both photometric and geometric information from multiple images [19]. Whenever such models are available, photometric 2D features or geometric 3D features, if taken separately, have limited informative capabilities with respect to the potential richness of the data. This is the case, for example, with deformable and/or articulated objects, since image appearance is only partially robust to motions and geometric properties alone are not always robust, e.g., the topology of the model can change considerably with varying object poses. Therefore, we believe that photometric and geometric information need to be handled in a consistent and simultaneous manner. To this purpose, we observe that photometric information available with 3D models can be viewed as scalar functions defined over 2D manifolds and, as such, represent a generalization of planar image domains to non-planar domains. We can thus build on the existing image feature extraction theories and investigate their extensions to 2D manifolds.

시각적 관찰에서 다양한 2D 또는 3D 기능의 감지, 특성화 및 일치는 모델링, 추적, 인식 또는 인덱싱과 같은 다양한 응용 프로그램에 매우 중요합니다. 대부분의 기존 방법은 2D 이미지에서 사용할 수있는 측광 정보 또는 3D 표면에서 사용할 수있는 기하학적 정보를 사용하여 특징을 감지합니다. 그러나 최근 이미지 기반 3D 모델링 및 렌더링의 발전으로 여러 이미지에서 측광 및 기하학적 정보를 모두 복구 할 수 있습니다 [19]. 이러한 모델을 사용할 수있을 때마다 포토 메트릭 2D 기능 또는 기하학적 3D 기능은 별도로 취하면 데이터의 잠재적 인 풍부함과 관련하여 정보 기능이 제한됩니다. 예를 들어 이미지 모양이 움직임에 대해 부분적으로 만 견고하고 기하학적 속성 만 항상 견고하지는 않기 때문에 변형 가능 및 / 또는 관절 형 객체의 경우가 이에 해당합니다. 예를 들어 모델의 토폴로지는 다양한 객체 포즈에 따라 상당히 변경 될 수 있습니다. 따라서 포토 메트릭 및 기하학적 정보는 일관되고 동시에 처리되어야한다고 믿습니다. 이를 위해 3D 모델에서 사용할 수있는 광도 정보는 2D 매니 폴드에 대해 정의 된 스칼라 함수로 볼 수 있으며, 따라서 평면 이미지 도메인을 비평면 도메인으로 일반화 한 것을 나타냅니다. 따라서 기존 이미지 특징 추출 이론을 기반으로 2D 매니 폴드에 대한 확장을 조사 할 수 있습니다.

 

The contribution of this paper is twofold: first we develop a methodology for feature-based characterization using operators acting on scalar functions defined over 2D manifolds; second, we derive a novel family of interest point detectors and descriptors that take into account both the surface geometry and the photometric information. To this aim, operators such as the discrete convolution and the discrete gradient, are defined for scalar functions on discrete surfaces, i.e., meshes, thus taking into account both the functions’ differential properties as well as the surfaces’ intrinsic geometry. Based on these operators, a new inter est point detector and a new local descriptor are introduced, namely MeshDOG and MeshHOG. MeshDOG is a generalization of the DOG operator [14, 13] and it seeks the extrema of the Laplacian of a scale-space representation of any scalar function defined on a discrete manifold. MeshHOG is a generalization of the histogram of oriented gradients (HOG) descriptor recently introduced for describing 2D images [3]. The new descriptor is defined with respect to the measurements available at each of the discrete surface’s vertices and it can work with features photometric features, as well as with geometric feature, such as curvature, geodesic integral, etc.

이 백서의 기여도는 두 가지입니다. 먼저 2D 매니 폴드에 정의 된 스칼라 함수에 대해 작동하는 연산자를 사용하여 기능 기반 특성화를위한 방법론을 개발합니다. 둘째, 표면 기하학과 광도 정보를 모두 고려하는 새로운 관심 지점 감지기 및 설명자 제품군을 도출합니다. 이를 위해 이산 컨볼 루션 및 이산 그라데이션과 같은 연산자는 이산 표면, 즉 메시의 스칼라 함수에 대해 정의되므로 함수의 미분 속성과 표면의 고유 형상을 모두 고려합니다. 이러한 연산자를 기반으로 새로운 관심 지점 감지기와 새로운 로컬 설명자인 MeshDOG 및 MeshHOG가 도입되었습니다. MeshDOG는 DOG 연산자 [14, 13]의 일반화이며 이산 매니 폴드에 정의 된 모든 스칼라 함수의 스케일 공간 표현의 라플라시안 극값을 찾습니다. MeshHOG는 최근 2D 이미지를 설명하기 위해 도입 된 HOG (Histogram of Oriented Gradients) 디스크립터의 일반화입니다 [3]. 새 설명자는 각 개별 표면의 정점에서 사용할 수있는 측정과 관련하여 정의되며 곡률, 측지 적분 등과 같은 기하학적 기능은 물론 포토 메트릭 기능과 함께 작동 할 수 있습니다.

 

As it is the case with the more classical image operators, detectors and descriptors are not uniquely defined over surfaces and MeshDOG and MeshHOG were chosen in light of their quasi-invariance to transformations such as rotation and scale. In addition, they exhibit a number of attractive properties: (i) there are no perspective distortions, since computations are achieved in 3D; (ii) there are no false detections due to occlusions; (iii) the descriptor captures both the local 3D geometry and the local gradient information of the scalar function; (iv) no planar mesh embedding is necessary; (v) within a multiple-camera setting, the descriptor can fuse the photometric information coming from different images in order to provide more robust image-invariant photometric information.

보다 고전적인 이미지 연산자의 경우와 같이 검출기와 설명자는 표면에 대해 고유하게 정의되지 않으며 MeshDOG 및 MeshHOG는 회전 및 배율과 같은 변환에 대한 준 불변성을 고려하여 선택되었습니다. 또한 다음과 같은 매력적인 특성을 보여줍니다. (i) 3D로 계산이 이루어지기 때문에 원근 왜곡이 없습니다. (ii) 폐색으로 인한 잘못된 탐지가 없습니다. (iii) 디스크립터는 스칼라 함수의 로컬 3D 지오메트리와 로컬 그래디언트 정보를 모두 캡처합니다. (iv) 평면형 메시 임베딩이 필요하지 않습니다. (v) 다중 카메라 설정 내에서 디스크립터는보다 강력한 이미지 불변 광도 정보를 제공하기 위해 다른 이미지에서 오는 광도 정보를 융합 할 수 있습니다.

 

The organization of the paper is as follows. Section 2 discusses related works. Section 3 describes the mathematical formulation used to to build a number of operators on discrete manifolds. Section 4 and 5 introduce the local feature detector and descriptor, respectively. Section 6 presents and discusses the results, before concluding in section 7.

논문의 구성은 다음과 같다. 섹션 2에서는 관련 작업에 대해 설명합니다. 섹션 3은 이산 매니 폴드에서 여러 연산자를 구축하는 데 사용되는 수학적 공식을 설명합니다. 섹션 4와 5에서는 각각 로컬 특성 감지기와 설명자를 소개합니다. 섹션 6은 섹션 7에서 결론을 내리기 전에 결과를 제시하고 논의합니다.

 

2. Related Work

Photometric functions over planar domains (local image features): Developing robust 2D features, invariant under changes in illumination, viewpoint, scale and orientation has been one of the long term research goals in the area. Currently, SIFT [13] and HOG (histogram of oriented gradients) [3] are among the most widely used descriptors for their robustness to the transformations just cited. Interest points may coincide to the extrema of the Laplacian of the photometric function, and they are detected at various resolution scales using the difference of Gaussians (DOG) approximation of the Laplacian, see [15] for a detailed review. Alternatively, spatio-temporal descriptors have also been proposed [24, 9], by considering the 3D spatio-temporal volume defined by a short image sequence over time. Such space-time features can be seen as local features defined over 3D grids. We extend the DOG operator to non-planar surfaces instead of dealing with volumetric grids.

평면 도메인 (로컬 이미지 기능)에 대한 측광 기능 : 조명, 시점, 배율 및 방향의 변화에 ​​따라 변하지 않는 강력한 2D 기능을 개발하는 것은이 분야의 장기적인 연구 목표 중 하나였습니다. 현재 SIFT [13] 및 HOG (지향적 기울기의 히스토그램) [3]는 방금 인용 한 변환에 대한 견고성에 대해 가장 널리 사용되는 설명자 중 하나입니다. 관심 지점은 광도 함수의 라플라시안 극값과 일치 할 수 있으며 라플라시안의 가우스 (DOG) 근사 차이를 사용하여 다양한 해상도 스케일에서 감지됩니다. 자세한 검토는 [15]를 참조하십시오. 또는 시간에 따른 짧은 영상 시퀀스로 정의되는 3D 시공간 볼륨을 고려하여 시공간 디스크립터도 제안되었다 [24, 9]. 이러한 시공간 기능은 3D 그리드에 정의 된 로컬 기능으로 볼 수 있습니다. 용적 그리드를 처리하는 대신 DOG 연산자를 비평면 표면으로 확장합니다.

 

Geometric functions over surfaces (local geometric features): 3D spin images [8] and 3D shape contexts [11, 5] are among the most successful surface descriptors. These are descriptors that rely solely on the surface geometry. See [22, 2] for a detailed survey. Typically these descriptors characterize the neighbourhood of a specified surface region. A number of methods have been proposed for automatic identification of interest regions on surfaces, taking into account geometrical features. Scale-space extrema based on the averaged mean curvature flow are proposed in [18]. Alternatively, [16] defines the scale space in a planar parametrization of the surface using the normal map and searches for the extrema. Gradient operators are defined over a planar vector field. While this formulation could be used as an alternative mathematical framework in current work, the required planar parameterization introduces an additional level of complexity that the currently proposed method avoids. [12] proposes a mesh saliency method, based on the center-surround operator, adapted from the visual attention literature. Photometric information is not taken into account by these methods.

표면에 대한 기하학적 기능 (로컬 기하학적 기능) : 3D 스핀 이미지 [8] 및 3D 모양 컨텍스트 [11, 5]는 가장 성공적인 표면 설명자 중 하나입니다. 이들은 표면 형상에만 의존하는 설명자입니다. 자세한 조사는 [22, 2]를 참조하십시오. 일반적으로 이러한 설명자는 지정된 표면 영역의 이웃을 특성화합니다. 기하학적 특징을 고려하여 표면의 관심 영역을 자동으로 식별하기위한 여러 방법이 제안되었습니다. 평균 곡률 흐름에 기반한 스케일 공간 극한은 [18]에서 제안되었습니다. 또는 [16]은 노멀 맵을 사용하여 표면의 평면 매개 변수화에서 스케일 공간을 정의하고 극값을 검색합니다. 기울기 연산자는 평면형 벡터 필드에 대해 정의됩니다. 이 공식은 현재 작업에서 대체 수학적 프레임 워크로 사용될 수 있지만 필요한 평면 매개 변수화는 현재 제안 된 방법이 피할 수있는 추가적인 수준의 복잡성을 도입합니다. [12]는 시각주의 문헌에서 채택 된 중앙 서라운드 연산자를 기반으로하는 메시 돌출 방법을 제안합니다. 이러한 방법에서는 광도 정보가 고려되지 않습니다.

 

Photometric functions over surfaces (local augmented surface features): In [25] a SIFT-based descriptor on 3D oriented patches is proposed, i.e., VIP (Viewpoint Invariant Patches), which was used for 3D model matching. It constitutes a first attempt to devise a descriptor that includes both geometry (normal orientation) and photometric information. In [21] the authors propose a concatenated surface descriptor taking into account both geometry (a region descriptor based on geodesic-intensity histograms), and photometric information (edge and corner descriptors that take into account the local isometric mapping to R 2 ). The approach proposed in this paper is similar in spirit to [25], but, instead, considers full 3D gradients and histograms.

표면에 대한 광도 함수 (로컬 증강 표면 기능) : [25]에서는 3D 모델 일치에 사용 된 VIP (Viewpoint Invariant Patches)와 같은 3D 지향 패치에 대한 SIFT 기반 설명자가 제안되었습니다. 이것은 지오메트리 (일반 방향)와 포토 메트릭 정보를 모두 포함하는 설명자를 고안하려는 첫 번째 시도입니다. [21]에서 저자는 기하학 (측지 강도 히스토그램에 기반한 영역 설명자)과 광도 정보 (R 2에 대한 로컬 등각 매핑을 고려한 모서리 및 모서리 설명자)를 모두 고려하여 연결된 표면 설명자를 제안합니다. 이 논문에서 제안한 접근법은 정신적으로 [25]와 유사하지만 대신 완전한 3D 그라디언트와 히스토그램을 고려합니다.

 

Many applications make use of local features, in particular in the context of surfaces: surface registration, nonrigid shape matching and object recognition. For instance [17] proposes an image-based descriptor using the local R 2 embedding of the normal information on the mesh in order to perform surface registration. Also, a recent number of works, e.g. [6, 1, 4, 23], address the non-rigid mesh matching problem using observations from multiple views. The vast majority of the proposed methods (the only notable exception being [6]) uses both geometric information extracted from surfaces and photometric data available with images. The latter is first extracted using 2D image descriptors (such as SIFT [13]), and subsequently backprojected onto the mesh. This sparse description is generally used to bootstrap dense matching. Surface descriptors may well be used for 3D object recognition, as it has been already done in [20] using the Princeton shape benchmarking database.

Our work contributes to these efforts by taking a different, yet complimentary approach, namely image-feature detection and description methodologies are extended to features defined onto 2D manifolds.

많은 응용 프로그램은 특히 표면의 맥락에서 표면 등록, 비 강체 모양 일치 및 물체 인식과 같은 로컬 기능을 사용합니다. 예를 들어 [17]은 표면 등록을 수행하기 위해 메쉬에 대한 일반 정보의 로컬 R 2 임베딩을 사용하는 이미지 기반 디스크립터를 제안합니다. 또한 최근 작품 수 (예 : [6, 1, 4, 23], 여러 뷰의 관찰을 사용하여 비 강성 메시 매칭 문제를 해결합니다. 제안 된 방법의 대부분 (유일한 예외는 [6])은 표면에서 추출한 기하학적 정보와 이미지에서 사용할 수있는 측광 데이터를 모두 사용합니다. 후자는 먼저 2D 이미지 디스크립터 (예 : SIFT [13])를 사용하여 추출 된 다음 메시에 역 투영됩니다. 이 희소 설명은 일반적으로 고밀도 일치를 부트 스트랩하는 데 사용됩니다. 표면 설명자는 Princeton 모양 벤치마킹 데이터베이스를 사용하여 [20]에서 이미 수행 되었기 때문에 3D 물체 인식에 잘 사용될 수 있습니다.

우리의 작업은 다르지만 보완적인 접근 방식을 취함으로써 이러한 노력에 기여합니다. 즉, 이미지 특징 감지 및 설명 방법론이 2D 매니 폴드에 정의 된 특징으로 확장됩니다.

 

3. Problem formulation

Let S denote the set of all possible discrete parametrizations of the admissible 2D manifolds in R 3 . We will consider in particular uniformly sampled triangulated meshes S ∈ S, namely meshes whose facets are triangles of approximately the same area and whose vertices’ valence is close to 6. We notice that such an uniform mesh can be obtained from a non-uniform mesh through simple mesh operations, as proposed in [10]. This absolves us of the necessity of complex techniques that ensure proper samplings of scalar fields over S, while keeping generality. It is interesting to notice that an image can be viewed as a “flat” uniformly sampled mesh, i.e., a grid of vertices with valence 4 and whose facets are squares or rectangles.

S는 R 3에서 허용되는 2D 매니 폴드의 가능한 모든 이산 매개 변수 집합을 나타냅니다. 특히 균일하게 샘플링 된 삼각형 메쉬 S ∈ S, 즉면이 거의 동일한 면적의 삼각형이고 정점의 원자가가 6에 가까운 메쉬를 고려할 것입니다. 이러한 균일 한 메쉬는 균일하지 않은 메쉬에서 얻을 수 있습니다. [10]에서 제안한 간단한 메시 작업을 통해. 이것은 일반성을 유지하면서 S를 통해 스칼라 필드의 적절한 샘플링을 보장하는 복잡한 기술의 필요성을 제거합니다. 이미지가 "평평한"균일하게 샘플링 된 메시, 즉, valence가 4이고 패싯이 정사각형 또는 직사각형 인 정점 그리드로 볼 수 있다는 점은 흥미 롭습니다.

S can also be viewed as a graph S(V, E), where V = {vi}1≤i≤N is the set of mesh vertices and E = {eij} is the set of mesh edges between adjacent vertices. We denote by eavg the average edge length. We associate a 3D point v ∈ R 3 with each vertex v. The ring of a vertex rg(v, n) is the set of vertices that are at distance n from v on S, where the distance n is the minimum number of edges between two vertices. Thus rg(v, 0) is v itself and rg(v, 1) is the set of direct neighbours of v (see Figure 2). The neighbourhood Nn(v) is then the set of rings {rg(v, i)}0≤i≤n. We further denote −→n v the unit vector normal to the surface S at vertex v, computed as the average direction of the normals of the triangles incident to v.

S는 그래프 S (V, E)로도 볼 수 있습니다. 여기서 V = {vi} 1≤i≤N은 메시 정점 집합이고 E = {eij}는 인접한 정점 사이의 메시 가장자리 집합입니다. 평균 가장자리 길이를 eavg로 표시합니다. 3D 점 v ∈ R 3을 각 정점 v와 연관시킵니다. 정점 rg (v, n)의 링은 S에서 v에서 n 거리에있는 정점 세트입니다. 여기서 거리 n은 최소 모서리 수입니다. 두 정점 사이. 따라서 rg (v, 0)은 v 자체이고 rg (v, 1)은 v의 직접 이웃 집합입니다 (그림 2 참조). 이웃 Nn (v)은 고리의 집합 {rg (v, i)} 0≤i≤n입니다. 우리는 v에 입사하는 삼각형의 법선의 평균 방향으로 계산 된 정점 v에서 표면 S에 수직 인 단위 벡터를 추가로 표시합니다.

 

We consider a scalar function f : S → R. In order to be able to estimate discrete gradient information, we first recall the definition of the directional derivative of a scalar function on a manifold [7]:

우리는 스칼라 함수 f : S → R을 고려합니다. 이산 기울기 정보를 추정 할 수 있으려면 먼저 매니 폴드에 대한 스칼라 함수의 방향 도함수 정의를 상기합니다 [7] :

 

Definition 1 (Directional Derivative) Let ∇Sf denote the gradient operator of f on S, the directional derivative of f at v ∈ S is defined as: D−→u f(v) = ∇Sf(v) · −→u , (1) for any direction −→u in the tangent plane of S at v. Using the fact that up to first order: f(vj ) − f(vi) = ∇Sf(vi) · (vj − vi) around vi , we have the following definition:

정의 1 (방향 미분) ∇Sf가 S에 대한 f의 기울기 연산자를 나타내고, v ∈ S에서 f의 방향 미분은 다음과 같이 정의됩니다. D− → uf (v) = ∇Sf (v) · − → u, ( 1) v에서 S의 접평면에서 모든 방향 − → u. 1 차까지 : f (vj) − f (vi) = ∇Sf (vi) · (vj − vi) 주위에 vi, 다음과 같은 정의가 있습니다.

 

Definition 2 (Discrete Directional Derivative) The discrete directional derivative of f is defined as : (2)

정의 2 (이산 방향 미분) f의 이산 방향 미분은 다음과 같이 정의됩니다. (2)

 

∇Sf(vi) is by definition a vector in the tangent plane at vi and the above definition allows us to estimate its directional values around vi . Hence, two such non-null local directional gradients are, in principle, sufficient to estimate the gradient ∇Sf(vi) at vi . This is a generalization of the classical way of computing gradients in the image using two orthogonal directions. In practice however, we prefer to use all the directional gradients provided by the first ring of a vertex: indeed, this redundancy guarantees a more robust operator:

∇Sf (vi)는 정의상 vi에서 접선 평면의 벡터이며 위의 정의를 통해 vi 주위의 방향 값을 추정 할 수 있습니다. 따라서 이러한 null이 아닌 두 가지 로컬 방향 기울기는 원칙적으로 vi에서 기울기 ∇Sf (vi)를 추정하기에 충분합니다. 이것은 두 개의 직교 방향을 사용하여 이미지의 기울기를 계산하는 고전적인 방법의 일반화입니다. 그러나 실제로는 정점의 첫 번째 링에서 제공하는 모든 방향 기울기를 사용하는 것을 선호합니다. 실제로 이러한 중복성은보다 강력한 연산자를 보장합니다.

 

Definition 3 (Discrete Gradient) the gradient operator ∇Sf(vi) of f at vi ∈ S is defined as: ∇Sf(vi) = X vj∈rg(vi,1) (wijD−→eij f(vi)) −→uij , (3) where wij weighs the contribution of D−→eij and −→uij is the normalized projected direction of −−→vivj in the tangent plane at vi .

정의 3 (Discrete Gradient) vi ∈ S에서 f의 기울기 연산자 ∇Sf (vi)는 다음과 같이 정의됩니다. ∇Sf (vi) = X vj∈rg (vi, 1) (wijD− → eij f (vi)) − → uij, (3) 여기서 wij는 D- → eij의 기여도를 측정하고 − → uij는 vi에서 접선 평면에서 −- → vivj의 정규화 된 투영 방향입니다.

 

The weights wij should be chosen in order to balance the contributions of the local directional derivatives with respect to their associated directions in the tangent plane. The gradient is defined as a weighted mean of directional derivatives, since directional derivatives are projections of the gradient onto given directions. Assuming that S is uniformly sampled and thus that neighbours around vi are equally spaced we get: wij = 1 val(vi) where val(vi) is the valence of vi . For non uniformly sampled meshes, the weights are a function of the angles between the directions −→uij around vi in the tangent plane at vi .

가중치 wij는 탄젠트 평면에서 관련 방향과 관련하여 로컬 방향 도함수의 기여도를 균형있게 조정하기 위해 선택해야합니다. 방향성 미분은 주어진 방향에 대한 기울기의 투영이므로 기울기는 방향성 미분의 가중 평균으로 정의됩니다. S가 균일하게 샘플링되어 vi 주변의 이웃이 균등하게 간격을두고 있다고 가정하면 다음과 같이됩니다. wij = 1 val (vi) 여기서 val (vi)는 vi의 원자가입니다. 균일하게 샘플링되지 않은 메시의 경우 가중치는 vi의 탄젠트 평면에서 vi 주위의 − → uij 방향 사이의 각도 함수입니다.

 

Finally, we define the discrete convolution operator on a mesh:

마지막으로 메쉬에 이산 컨볼 루션 연산자를 정의합니다.

 

Definition 4 (Discrete Convolution). The convolution of the function f with a kernel k is: (f ∗ k)(vi) = 1 K X vj∈Nn(vi) k(||−−→vivj ||)f(vj ),

정의 4 (Discrete Convolution). 커널 k를 사용한 함수 f의 컨볼 루션은 다음과 같습니다. (f ∗ k) (vi) = 1 K X vj∈Nn (vi) k (|| −− → vivj ||) f (vj),

 

(4)

 

(4) where the kernel weighs the participation of neighbouring vertices vj as a function of their distances from vertex vi and K = P vj∈Nn(vi) k(||−−→vivj ||) is a normalization factor. Notice that, as for the discrete gradient, we assume a uniformly sampled mesh and thus that contributions of neighbouring vertices vj in the above expression are equally weighted with respect to their spatial arrangements. Another remark is that, generally, we use the above definition with the first ring only, i.e., n = 1.

(4) 여기서 커널은 정점 vi로부터의 거리의 함수로서 인접 정점 vj의 참여에 가중치를 부여하고 K = P vj∈Nn (vi) k (|| −− → vivj ||)는 정규화 인자입니다. 불연속 그라디언트의 경우 균일하게 샘플링 된 메시를 가정하므로 위 식에서 인접한 정점 vj의 기여도는 공간 배열과 관련하여 동일하게 가중치가 부여됩니다. 또 다른 언급은 일반적으로 위의 정의를 첫 번째 링, 즉 n = 1로만 사용한다는 것입니다.

 

4. Feature Detection (MeshDOG) 기능 감지

Feature detection is comprised of three steps, as illustrated in Figure 3. First, the extrema of the function’s Laplacian (DOG) are found across scales using a one-ring neighbourhood. Second, the extrema thus detected are thresholded. Third, the unstable extrema are eliminated, thus retaining those mesh locations exhibiting some degree of cornerness.

기능 감지는 그림 3에 나와있는 것처럼 세 단계로 구성됩니다. 첫째, 함수의 라플라시안 (DOG) 극값은 원 링 이웃을 사용하여 여러 척도에서 발견됩니다. 둘째, 이렇게 감지 된 극한값은 임계 값입니다. 셋째, 불안정한 극값이 제거되어 어느 정도의 모서리를 나타내는 메시 위치를 유지합니다.

 

Scale-space extrema. 스케일 공간 극한.

We propose a scale-space representation of scalar function f defined on a mesh. We consider the convolution operation on meshes (see Definition 4) using a Gaussian kernel, defined as: gσ(x) = exp (−x 2/2σ 2 ) σ √ 2π .

메쉬에 정의 된 스칼라 함수 f의 스케일 공간 표현을 제안합니다. gσ (x) = exp (−x 2 / 2σ 2) σ √ 2π로 정의되는 Gaussian 커널을 사용하여 메시에 대한 컨볼 루션 연산 (정의 4 참조)을 고려합니다.

The scale space of f is built progressively: f0 = f, f1 = f0 ∗ gσ, f2 = f1 ∗ gσ, etc. Convolved functions are subtracted, e.g., DOG1 = f1 − f0, DOG2 = f2 − f1, etc., in order to obtain the difference of Gaussian operator. An example can be observed in Figure 4, where the model used is frame 30 from pop2lock sequence from the University of Surrey, and the features being shown are colour and mean curvature. An important observation is that, when building the scale space, the mesh geometry does not change, but the different scalar functions defined on the mesh, i.e. f1, f2, DOG1, DOG2. We have chosen σ = 2 1 3 eavg and have performed 93 convolutions.

f의 축척 공간은 점진적으로 구축됩니다 : f0 = f, f1 = f0 ∗ gσ, f2 = f1 ∗ gσ 등. 가우시안 연산자의 차이를 구합니다. 사용 된 모델은 University of Surrey의 pop2lock 시퀀스의 프레임 30이고 표시되는 기능은 색상과 평균 곡률입니다. 중요한 관찰은 스케일 공간을 구축 할 때 메시 지오메트리가 변경되지 않고 메시에 정의 된 다른 스칼라 함수 (예 : f1, f2, DOG1, DOG2)입니다. σ = 2 1 3 eavg를 선택하고 93 개의 컨볼 루션을 수행했습니다.

 

The feature points are selected as the maxima of the scale space across scales, followed by non-maximumsuppression, using the one ring neighbourhood, in the current and in the adjacent scales.

특징점은 척도에 걸친 척도 공간의 최대 값으로 선택되고, 그 다음에는 하나의 링 주변을 사용하여 현재 및 인접 척도에서 비 최대 억제가 뒤 따릅니다.

 

Thresholding.

From the extrema of the scale space, only the top β = 5% of the maximum number of vertices are being considered, sorted by magnitude. We have chosen a percentage value versus a hard value threshold in order to keep the detector flexible, no matter which feature is being considered, without the need for normalization.

축척 공간의 극한값에서 최대 β = 최대 정점 수의 5 % 만 고려되고 크기별로 정렬됩니다. 정규화 할 필요없이 어떤 기능이 고려 되든 상관없이 감지기를 유연하게 유지하기 위해 백분율 값 대 하드 값 임계 값을 선택했습니다.

 

Corner Detection.

Additionally, in order to eliminate more non-stable responses, we retain the features that exhibit corner characteristics. As proposed in [13] this can be done using the Hessian operator: : H(v) =  dxx(v) dxy(v) dyx(v) dyy(v)  , (5) where dxx, dxy and dyy are second partial derivatives. We estimate them by applying the definition of directional derivatives (1) twice, e.g. dxy = ∇SD−→x f(v) · −→y , where the gradient is computed using (3). The directions −→x and −→y represent here a local coordinate system in the tangent plane of v, typically the gradient direction for −→x and its orthogonal direction for −→y . The ratio between the largest λmax and the lowest λmin eigenvalues of the Hessian matrix is a good indication of a corner response, which is independent of the local coordinate frame. We typically use λmax/λmin = 10 as a minimum value to threshold responses.

또한 더 불안정한 응답을 제거하기 위해 코너 특성을 나타내는 기능을 유지합니다. [13]에서 제안한대로 이것은 Hessian 연산자를 사용하여 수행 할 수 있습니다. : H (v) = dxx (v) dxy (v) dyx (v) dyy (v), (5) 여기서 dxx, dxy 및 dyy는 2 차 편도 함수. 방향성 미분 (1)의 정의를 두 번 적용하여 추정합니다. dxy = ∇SD− → x f (v) · − → y, 여기서 기울기는 (3)을 사용하여 계산됩니다. 방향 − → x 및 − → y는 여기서 v의 접선 평면에있는 로컬 좌표계를 나타내며, 일반적으로 − → x의 기울기 방향과 − → y의 직교 방향입니다. Hessian 행렬의 가장 큰 λmax와 가장 낮은 λmin 고유 값 사이의 비율은 로컬 좌표 프레임과 무관 한 코너 응답의 좋은 표시입니다. 일반적으로 λmax / λmin = 10을 임계 값 응답에 대한 최소값으로 사용합니다.

 

5. Feature Descriptor (MeshHOG) 기능 설명자

The descriptor tv for vertex v is computed using a support region, defined using a neighbourhood ring size r, as depicted in Figure 2. For each vertex from the neighbourhood vi ∈ Nr(v), the gradient information ∇Sf(vi) is computed using (3). As a first step, a local coordinate system is chosen, in order to make the descriptor invariant to rotation. Then, a histogram of gradient is computed, both spatially, at a coarse level, in order to maintain a certain high-level spatial ordering, and using orientations, at a finer level. Since the gradient vectors are 3 dimensional, the histograms are computed in 3D.

정점 v에 대한 설명자 tv는 그림 2와 같이 이웃 링 크기 r을 사용하여 정의 된 지원 영역을 사용하여 계산됩니다. 이웃 vi ∈ Nr (v)의 각 정점에 대해 기울기 정보 ∇Sf (vi)가 계산됩니다. (3) 사용. 첫 번째 단계로 디스크립터를 회전에 대해 불변하게 만들기 위해 로컬 좌표계를 선택합니다. 그런 다음 특정 높은 수준의 공간 순서를 유지하고 더 미세한 수준에서 방향을 사용하기 위해 공간적으로 거친 수준에서 그라디언트 히스토그램이 계산됩니다. 그래디언트 벡터는 3 차원이므로 히스토그램은 3D로 계산됩니다.

 

Neighborhood size. 이웃 크기.

The number of rings r for the support region is chosen adaptively based on a more global measure, such that the descriptor is robust to different spatial samplings and to scaling. The value of r is chosen such that it covers a proportion αr from the the total mesh surface, where αr ∈ (0, 1). By denoting AS as the total surface area of the mesh S, which can be computed as the sum of all triangle areas, the ring size r is: (6)

(6) assuming that the surface covering the ring neighbourhood can be approximated with a circle and that the mesh S is equally sampled, with the average edge size eavg. In practice, we use an r corresponding to αr = 1%.

지원 영역에 대한 링 수 r은 더 글로벌 측정에 따라 적응 적으로 선택되므로 디스크립터는 다양한 공간 샘플링 및 스케일링에 강건합니다. r의 값은 전체 메쉬 표면에서 αr 비율을 포함하도록 선택됩니다. 여기서 αr ∈ (0, 1). AS를 모든 삼각형 영역의 합으로 계산할 수있는 메시 S의 총 표면적으로 표시하면 링 크기 r은 다음과 같습니다. (6) (6) 링 주변을 덮는 표면이 원으로 근사 할 수 있고 메쉬 S가 평균 가장자리 크기 eavg로 동일하게 샘플링된다고 가정합니다. 실제로 αr = 1 %에 해당하는 r을 사용합니다.

 

Local Coordinate System. 로컬 좌표계.

A local coordinate system can be devised using the normal −→n v and two other unit vectors, residing in tangent plane Pv of v. Given a unit vector −→a v ∈ Pv, the local coordinate system is given by { −→a v, −→n v, −→a v × −→n v}. Vector −→a v is computed as the direction associated to the dominant bin in a polar histogram, with ba = 36 bins. The histogram is computed by considering the projected vertices vi in Pv and taking into account their gradient magnitudes. We weigh ||∇Sf(vi)|| by a Gaussian with σ = eavgr/2, based on the geodesic distance from v. In order to reduce aliasing and boundary effects of binning, votes are interpolated bilinearly between neighbouring bins when computing the histograms. We use the same weighting and interpolation technique for any further binning.

v의 접평면 Pv에있는 정규 − → nv 및 두 개의 다른 단위 벡터를 사용하여 로컬 좌표계를 고안 할 수 있습니다. 단위 벡터 − → av ∈ Pv가 주어지면 로컬 좌표계는 {− → av, − → nv, − → av × − → nv}. 벡터 − → a v는 ba = 36 개의 빈을 사용하여 극 히스토그램에서 지배적 인 빈과 관련된 방향으로 계산됩니다. 히스토그램은 Pv에서 투영 된 정점 vi를 고려하고 그라디언트 크기를 고려하여 계산됩니다. 우리 몸무게 || ∇Sf (vi) || v로부터의 측지 거리를 기반으로 σ = eavgr / 2 인 Gaussian에 의해. 비닝의 앨리어싱 및 경계 효과를 줄이기 위해 히스토그램을 계산할 때 인접 빈간에 투표가 쌍 선형으로 보간됩니다. 추가 비닝에 대해 동일한 가중치 및 보간 기법을 사용합니다.

 

Histograms.

Instead of computing full 3D orientation histograms, as proposed in [9], we project the gradient vectors to the 3 orthonormal planes, describing the local coordinate system. This provides us with a more compact representation of the descriptor. For each of the three planes, we compute a 2 level histogram. Firstly, the plane is divided in bs = 4 polar slices, starting with an origin and continuing in the direction dictated by the right hand rule with respect to the other orthonormal axis vector. When projected onto the plane, each vertex vi will fall within one of the spatial slices. For each spatial slice, we compute orientation histograms with bo = 8 bins for each of the projected gradient vectors ∇Sf(vi) of the vertices vi that projected onto that spatial slice, as shown in Figure 5(d).

전체 3D 방향 히스토그램을 계산하는 대신 [9]에서 제안한 것처럼 기울기 벡터를 3 개의 직교 평면에 투영하여 로컬 좌표계를 설명합니다. 이것은 디스크립터의보다 간결한 표현을 제공합니다. 3 개의 평면 각각에 대해 2 단계 히스토그램을 계산합니다. 첫째, 평면은 원점에서 시작하여 다른 직교 축 벡터에 대해 오른손 법칙에 의해 지시 된 방향으로 계속되는 bs = 4 극 슬라이스로 나뉩니다. 평면에 투영 될 때 각 정점 vi는 공간 슬라이스 중 하나에 속합니다. 각 공간 슬라이스에 대해 그림 5 (d)와 같이 해당 공간 슬라이스에 투영 된 정점 vi의 투영 된 기울기 벡터 ∇Sf (vi) 각각에 대해 bo = 8 개의 빈을 사용하여 방향 히스토그램을 계산합니다.

 

Descriptor. 설명자.

The final descriptor is obtained by concatenating bs × bo histogram values for each of the three planes, followed by L-2 normalization.

최종 설명자는 세 평면 각각에 대해 bs × bo 히스토그램 값을 연결 한 다음 L-2 정규화를 통해 얻습니다. 

 

6. Mesh Matching 메쉬 매칭

We are validating the proposed detector and descriptor using a mesh matching approach. Let us consider two meshes S1 and S2 of the same object. The two meshes do not necessarily have the same number of vertices. Using the proposed approach, n1 interest points are detected on S1, which are characterised by descriptors t 1 i , with i ∈ [1..n1]. Similarly, n2 interest points are detected on S2, characterised by descriptors t 2 j , with j ∈ [1..n2].

우리는 메시 매칭 접근법을 사용하여 제안 된 검출기와 설명자를 검증하고 있습니다. 동일한 객체의 두 메시 S1과 S2를 고려해 보겠습니다. 두 메시에 꼭 같은 수의 정점이있는 것은 아닙니다. 제안 된 접근 방식을 사용하여 n1 개의 관심 지점이 S1에서 감지되며, 이는 설명자 t 1 i, i ∈ [1..n1]로 특성화됩니다. 유사하게, n2 관심 지점은 설명자 t 2 j, j ∈ [1..n2]로 특징 지어지는 S2에서 감지됩니다.

 

Matching.

We use an intuitive greedy heuristic in order to select the a set of best matches. For each descriptor t 1 i from surface S1, we find the best matching descriptor t 2 j from surface S2 in terms of the Euclidean distance dij = ||t 1 i − t 2 j || . We perform cross validation, by checking that t 2 j ’s best match is indeed t 1 i . Finally, we only accept the candidate match is the second best match is significantly worse (γ = 0.7 or less from the best match score). This is not meant to fully solve the matching problem, as would a global approach [21]. It is merely intended for validation and for evaluation of our detector and descriptor.

우리는 가장 적합한 세트를 선택하기 위해 직관적 인 탐욕스러운 휴리스틱을 사용합니다. 표면 S1의 각 설명자 t 1 i에 대해 유클리드 거리 dij = || t 1 i − t 2 j ||와 관련하여 표면 S2에서 가장 일치하는 설명자 t 2 j를 찾습니다. . 우리는 t 2 j의 최적 일치가 실제로 t 1 i인지 확인하여 교차 검증을 수행합니다. 마지막으로, 우리는 두 번째로 좋은 일치가 상당히 나쁘다는 후보 일치 만 허용합니다 (가장 일치하는 점수에서 γ = 0.7 이하). 이것은 글로벌 접근법 [21]처럼 매칭 문제를 완전히 해결하기위한 것이 아닙니다. 이는 단지 검증과 검출기 및 설명 자의 평가를위한 것입니다.

 

Datasets.

In our evaluation we consider the following scenarios: (i) the two meshes are representations of the same rigid object, which can thus be aligned using a rotation, translation and scale; (ii) the two shapes are representations of the same non-rigid object, i.e. a moving person. In this context, we are introducing the datasets.

평가에서 다음 시나리오를 고려합니다. (i) 두 개의 메시는 동일한 강체의 표현이므로 회전, 평행 이동 및 배율을 사용하여 정렬 할 수 있습니다. (ii) 두 모양은 동일한 고정되지 않은 물체, 즉 움직이는 사람의 표현입니다. 이 맥락에서 우리는 데이터 세트를 소개합니다.

 

•Matching rigid objects: we are considering reconstructions of the same object using different camera sets. In particular, we are using meshes obtained employing the method described in [27], using the publicly available datasets from the Middleburry Multi-View Stereo site [19]. The Dino datasets contains two meshes, one with 27,240 vertices obtained from 16 cameras and the other of 31,268 vertices generated from 47 cameras. Similarly, the Temple datasets contains two meshes, one with 78,019 vertices obtained from 16 cameras and the other of 80,981 vertices generated from 47 cameras.

• 강체 개체 일치 : 다른 카메라 세트를 사용하여 동일한 개체의 재구성을 고려하고 있습니다. 특히, Middleburry Multi-View Stereo 사이트 [19]에서 공개적으로 사용 가능한 데이터 세트를 사용하여 [27]에 설명 된 방법을 사용하여 얻은 메시를 사용하고 있습니다. Dino 데이터 세트에는 두 개의 메시가 포함되어 있는데 하나에는 16 개의 카메라에서 얻은 27,240 개의 정점이 있고 다른 하나는 47 개의 카메라에서 생성 된 31,268 개의 정점이 있습니다. 마찬가지로 Temple 데이터 세트에는 두 개의 메시가 포함되어 있습니다. 하나에는 16 개의 카메라에서 얻은 78,019 개의 정점이 있고 다른 하나는 47 개의 카메라에서 생성 된 80,981 개의 정점이 있습니다.

 

• Matching non-rigid objects from synthetic data: we consider a synthetically generated dataset entitled Synth-Dance of a human mesh with 7,061 vertices moving across 200 frames.

• 합성 데이터에서 고정되지 않은 개체 일치 : 200 프레임을 가로 지르는 7,061 개의 정점이있는 인간 메시의 Synth-Dance라는 합성 데이터 세트를 고려합니다

 

• Matching non-rigid objects from real data: additionally, we use frames 515-550 from the INRIA Dance1 sequence 2 , where the same reconstruction method [27] was employed to recover models using 32 cameras. The models have vertices ranging between 16,212 and 18,332.

• 실제 데이터에서 고정되지 않은 개체 일치 : 추가로, 32 개의 카메라를 사용하여 모델을 복구하는 데 동일한 재구성 방법 [27]이 사용 된 INRIA Dance1 시퀀스 2의 프레임 515-550을 사용합니다. 모델에는 16,212에서 18,332 사이의 정점이 있습니다.

 

Photometric information. 광도 정보.

The colour of each vertex of the surface is computed by considering the median colour in the visible images. We assume that the colours of a vertex follow a non-Gaussian distribution, due to errors that can occur around occluding contours. In the Synth-Dance dataset the vertices are randomly coloured.

표면의 각 꼭지점의 색상은 보이는 이미지의 중간 색상을 고려하여 계산됩니다. 우리는 정점의 색상이 가우시안 분포를 따르지 않는다고 가정합니다. 이는 폐색 윤곽선 주변에서 발생할 수있는 오류로 인해 발생합니다. Synth-Dance 데이터 세트에서 정점은 무작위로 색상이 지정됩니다.

 

6.1. Examples of Matching Rigid Objects 고정 된 개체 일치의 예

We present our results on the Dino and Temple datasets in Figure 6, where we have run tests where the colour and the mean curvature were used as features, as well as cases in which we have created a new descriptor by concatenating the MeshHOG descriptors for colour and mean curvature. The results are interesting. Even when just curvature is used for the descriptor, there seems to be enough discriminability to account for a number of correct matches varying between 10-30, depending on the detector and the dataset. Both the Dino and the Temple datasets are rather challenging, due to the fact that, at a first glance, they do not have a large number of distinguishing non-repetitive features in terms of their visual aspect. Additionally, it seems that using just the colour as a feature provides the best results in terms of the number of matches. This is so, we can argue, because the descriptor inherently incorporates certain mesh geometry information by design of the operators.

그림 6의 Dino 및 Temple 데이터 세트에 대한 결과를 제시합니다. 여기서 색상과 평균 곡률이 기능으로 사용 된 테스트와 색상에 대한 MeshHOG 설명자를 연결하여 새 설명자를 생성 한 경우를 실행했습니다. 곡률을 의미합니다. 결과는 흥미 롭습니다. 설명자에 곡률 만 사용하더라도 검출기와 데이터 세트에 따라 10-30 사이의 다양한 올바른 일치를 설명 할 수있는 충분한 식별력이있는 것 같습니다. Dino와 Temple 데이터 세트는 언뜻보기에 시각적 측면에서 비 반복적 인 특징이 많지 않기 때문에 다소 도전적입니다. 또한 색상 만 기능으로 사용하는 것이 일치 수 측면에서 최상의 결과를 제공하는 것 같습니다. 설명자는 본질적으로 연산자의 설계에 의해 특정 메시 지오메트리 정보를 통합하기 때문에 우리는 주장 할 수 있습니다.

 

These are the only results presented in the paper where different features were used for the descriptor. All the other results are generated using colour information.

이것들은 설명자에 다른 기능이 사용 된 논문에서 제시된 유일한 결과입니다. 다른 모든 결과는 색상 정보를 사용하여 생성됩니다.

 

6.2. Examples of Matching Non-Rigid Objects 고정되지 않은 개체 일치의 예

Comparison with back-projected 2D features. 역 투영 된 2D 기능과의 비교.

We present a comparison between the proposed mesh matching framework using MeshHOG descriptor with another framework, currently employed in a number of mesh matching methods (see Section 2), that uses back-projected image descriptors. In the image based framework, the matching is performed in the images and only then is back-projected onto the surface. In our comparisons, we used the SIFT image descriptor. When matching the two surfaces, only matches from the same cameras are considered. In order to be able to carry such a comparison for the Synth-Dance dataset, we have generated images for 16 virtual cameras, distributed in a circular pattern around the object.

MeshHOG 디스크립터를 사용하는 제안 된 메시 매칭 프레임 워크와 역 투영 된 이미지 디스크립터를 사용하는 여러 메시 매칭 방법 (섹션 2 참조)에 현재 사용되는 다른 프레임 워크 간의 비교를 제시합니다. 이미지 기반 프레임 워크에서 일치는 이미지에서 수행 된 다음 표면에 역 투영됩니다. 비교에서 SIFT 이미지 설명자를 사용했습니다. 두 표면을 일치시킬 때 동일한 카메라의 일치 만 고려됩니다. Synth-Dance 데이터 세트에 대해 이러한 비교를 수행 할 수 있도록 개체 주위에 원형 패턴으로 분포 된 16 개의 가상 카메라에 대한 이미지를 생성했습니다.

Synthetic comparative results are presented in Figure 7. The mesh in the first frame was matched with the mesh at any of the other 199 frames across the sequence. As it can be observed, the MeshHOG descriptor generates very few false positives in comparison with the SIFT equivalent, clearly demonstrating the advantages of the proposed approach.

합성 비교 결과는 그림 7에 나와 있습니다. 첫 번째 프레임의 메시는 시퀀스 전체의 다른 199 프레임에서 메시와 일치했습니다. 관찰 할 수 있듯이 MeshHOG 디스크립터는 SIFT 등가물에 비해 오탐을 거의 생성하지 않으며 제안 된 접근 방식의 장점을 명확하게 보여줍니다.

In addition, we present empirical results in Figure 8 for for the INRIA Dance-1 sequence. As it can be observed, the second best match ratio threshold γ = 0.7 tends to be more aggressive for SIFT. There are only 54 matched found using the SIFT back-projected method between frame 525 and 526, whereas MeshHOG finds 119 matches. Even when matching across distant frames (530 and 550), our proposed method finds 13 correct matches, versus the SIFT descriptor, that fails. It is to be expected, since most of the inter-frame matches are due to local creases formed by the clothes.The head is the only unique feature that can be robustly matched across time.

또한, INRIA Dance-1 시퀀스에 대한 경험적 결과를 그림 8에 제시합니다. 관찰 할 수 있듯이 두 번째로 좋은 일치 비율 임계 값 γ = 0.7은 SIFT에 대해 더 공격적인 경향이 있습니다. 프레임 525와 526 사이에 SIFT 역 투영 방법을 사용하여 찾은 일치 항목은 54 개 뿐인 반면 MeshHOG는 119 개의 일치 항목을 찾습니다. 먼 프레임 (530 및 550)에서 일치하는 경우에도 우리가 제안한 방법은 SIFT 설명자에 비해 실패한 13 개의 올바른 일치를 찾습니다. 대부분의 프레임 간 성냥은 옷에 의해 형성된 국부적 인 주름에 기인하기 때문에 예상 할 수 있으며, 머리는 시간이 지남에 따라 견고하게 일치 할 수있는 유일한 특징입니다.

 

6.3. Resilience to Noise 소음에 대한 복원력

There are two kinds of uniformly distributed noise being applied: geometry noise (changing the vertices v) and colour noise (changing values f(v) held in each vertex). The colour noise relates to % of the total amount of a maximum 255 RGB value noise, whereas the geometry noise relates to the % of the total amount of a maximum eavg noise level. As it can be observed in Figure 9, the method does not generate more false positives when the amount of noise increases. The Dino dataset has a larger number of false positives, since the two meshes are not perfectly identical, being the result of a 3D reconstruction method from multiple images, which introduces some errors. In the Synth-dance dataset, the colour noise influences the descriptor accuracy more than the geometry noise, whereas in the Dino dataset the situation is reversed. This stems from the fact that the meshes in the two datasets have a relatively different number of vertices, which will in turn directly influence the ring neighbourhood size r (r = 7 for Synth-dance, and r = 15 and r = 16 for Dino), always chosen to represent αr of the total mesh area.

적용되는 균일하게 분산 된 노이즈에는 두 가지 종류가 있습니다. 지오메트리 노이즈 (정점 v 변경)와 색상 노이즈 (각 정점에 유지되는 값 f (v) 변경). 색상 노이즈는 최대 255 RGB 값 노이즈의 총량에 대한 %와 관련이있는 반면 지오메트리 노이즈는 최대 eavg 노이즈 레벨의 총량에 대한 %와 관련됩니다. 그림 9에서 볼 수 있듯이이 방법은 노이즈 양이 증가 할 때 더 많은 위양성을 생성하지 않습니다. Dino 데이터 세트에는 두 개의 메시가 완벽하게 동일하지 않기 때문에 여러 이미지의 3D 재구성 방법으로 인해 오류가 발생하기 때문에 더 많은 수의 오탐이 있습니다. Synth-dance 데이터 세트에서 색상 노이즈는 지오메트리 노이즈보다 설명자 정확도에 더 많은 영향을 미치는 반면 Dino 데이터 세트에서는 상황이 반대입니다. 이는 두 데이터 세트의 메시가 상대적으로 다른 수의 정점을 가지고 있다는 사실에서 비롯되며, 이는 차례로 링 이웃 크기 r (신스 댄스의 경우 r = 7, 디노의 경우 r = 15 및 r = 16)에 직접 영향을 미칩니다. ), 항상 전체 메쉬 영역의 αr을 나타내도록 선택됩니다.

 

Integration with mesh tracking. 메시 추적과 통합.

We have integrated the MeshHOG descriptor within an existing mesh tracking approach, described in [23], by replacing the sparse matching step based on back projected SURF descriptors with the currently introduced descriptor. For more details, see [26].

우리는 역 투영 된 SURF 디스크립터를 기반으로 희소 매칭 단계를 현재 도입 된 디스크립터로 대체하여 [23]에 설명 된 기존 메시 추적 접근 방식 내에 MeshHOG 디스크립터를 통합했습니다. 자세한 내용은 [26]을 참조하십시오.

 

The running time of computing such a descriptor depends on the descriptor neighbourhood size. For example, in the synth-dance dataset, computing 706 descriptors using a neighbourhood size r = 7 took under 1 second, while computing 2724 descriptors using a ring neighbourhood size r = 15 took 35 seconds. The machine used for the test was a Core2Duo 2.4GHz Intel with 2 Gigs of RAM running Mac OS.X. The code has been developed in C++ and it is available for download from 3 .

이러한 설명자를 계산하는 실행 시간은 설명자 이웃 크기에 따라 다릅니다. 예를 들어, synth-dance 데이터 세트에서 이웃 크기 r = 7을 사용하여 706 개의 디스크립터를 계산하는 데 1 초 미만이 걸리고 링 이웃 크기 r = 15를 사용하여 2724 개의 디스크립터를 계산하는 데 35 초가 걸렸습니다. 테스트에 사용 된 컴퓨터는 Mac OS.X를 실행하는 2Gig RAM이 장착 된 Core2Duo 2.4GHz Intel이었습니다. 코드는 C ++로 개발되었으며 3에서 다운로드 할 수 있습니다.

 

7. Conclusion

We have introduced MeshDOG and MeshHOG, a new 3D interest point detector and a new 3D descriptor, defined on uniformly sampled triangular meshes. The descriptor is able to capture the local geometric and/or photometric properties in a succinct fashion. It is robust to changes in orientation, rotation, translation and scale. We have presented results of matching various rigid and non rigid datasets, both on real sequences and on synthetically generated data. They demonstrate that local features detected on meshes using both photometric and geometric information are more robust than traditional purely photometric features detected in images.

우리는 균일하게 샘플링 된 삼각형 메시에 정의 된 새로운 3D 관심 지점 감지기 및 새로운 3D 설명자인 MeshDOG 및 MeshHOG를 도입했습니다. 디스크립터는 간결한 방식으로 로컬 기하학적 및 / 또는 측광 속성을 캡처 할 수 있습니다. 방향, 회전, 평행 이동 및 크기 변경에 강합니다. 실제 시퀀스와 종합적으로 생성 된 데이터 모두에서 다양한 고정 및 비 강성 데이터 세트를 일치시킨 결과를 제시했습니다. 그들은 포토 메트릭 정보와 기하학적 정보를 모두 사용하여 메쉬에서 감지 된 로컬 피쳐가 이미지에서 감지 된 기존의 순수 포토 메트릭 피쳐보다 더 강력하다는 것을 보여줍니다.