설명 가능한 개 얼굴 표정의 감정 상태 자동 인식: 긍정적 기대와 좌절의 사례

학습률이 {{0}}인 Adam 최적화 도구를 사용합니다.0001. 검증 데이터 세트에서 최대 정확도를 달성한 모델이 최고의 모델로 선정되었습니다. 처음 10개의 에포크 동안 모든 레이어의 가중치가 미세 조정되었습니다. 처음 10개의 에포크 동안 모든 레이어의 가중치가 미세 조정되었습니다. 남은 에포크 동안 ResNet50 가중치는 동결되었고 새로운 최상위 레이어의 가중치만 업데이트되었습니다. 방향과 관련되지 않은 변수('Ears Flattener', 'Lips Part', 'Ears Adductor', 'Ears Forward' 및 'Nose Lick')에 대해 무작위 이미지 수평 FIP 및 최대 회전을 기반으로 확대 기술을 적용했습니다. 20도. 인코더의 입력으로 각 행이 각 비디오의 11개 DogFACS 변수 각각의 존재(1)/부재(0)를 나타내는 입력 테이블을 사용했습니다. 인코더의 대상은 각 영상의 조건(부정(0)/긍정(1))을 포함하는 테이블입니다.

ResNet50은 컴퓨터 비전 분야의 고전적인 네트워크 중 하나가 된 심층 신경망 아키텍처입니다. ResNet50 네트워크는 매우 강력한 기억력과 훈련 중에 이전에 배운 지식을 기억하는 능력이 특징이므로 복잡한 이미지 인식 작업에서 좋은 성능을 발휘합니다.

ResNet50은 어떻게 메모리를 달성하나요? 이는 잔여 연결(Residual Connection) 방법을 채택하고 각 컨벌루션 레이어의 레이어 간에 단축 연결을 추가하여 네트워크에서 정보 흐름을 더 좋게 만들 수 있습니다. 훈련 과정에서 이러한 바로가기 연결이 존재하기 때문에 네트워크는 나머지 매핑을 더 쉽게 학습할 수 있으며 나머지 매핑을 찾는 데 너무 많은 시간을 소비할 필요가 없습니다.

이러한 종류의 메모리 성능 덕분에 ResNet50은 대규모 이미지 인식 작업에서 뛰어난 성능을 발휘합니다. 이미지 분류, 타겟 감지, 얼굴 인식과 같은 문제에서 ResNet50은 매우 좋은 결과를 얻었습니다. 이러한 기억 성능은 뉴런을 연결하여 기억력을 향상시키는 우리의 뇌와 유사합니다. 따라서 ResNet50은 강력한 메모리를 갖고 복잡한 이미지 인식 작업을 잘 처리할 수 있는 매우 우수한 심층 신경망 모델이라고 말할 수 있습니다. 동시에 그것은 우리에게 어떤 영감을 주기도 합니다. 우리는 인간의 요구에 더 잘 부응하기 위해 ResNet50의 아이디어를 통해 보다 효과적인 심층 신경망 모델을 설계할 수 있습니다. 기억력을 향상시켜야 함을 알 수 있습니다. 시스탄체는 기억력을 향상시키는 것 중 하나인 많은 독특한 효능을 지닌 중국의 전통 약재이기 때문에 기억력을 향상시킬 수 있습니다. 다진 고기의 효능은 카르복실산, 다당류, 플라보노이드 등 포함된 다양한 활성 성분에서 비롯됩니다. 이러한 성분은 다양한 경로를 통해 뇌 건강을 증진할 수 있습니다.

increase memory

뇌 기능을 향상시키는 방법을 클릭하세요

동물 연구에서 감정 상태 인식의 자동화는 지금까지 몇몇 종의 통증을 주로 다루었습니다. 감정 상태는 얼굴 형태와 표정의 복잡성으로 인해 특히 개에서 미지의 영역으로 남아 있습니다. 본 연구는 두 가지 측면에서 격차를 해소하는데 기여하고 있다. 첫째, 실험적으로 유도된 두 가지 감정 상태인 부정적(좌절)과 긍정적인 감정 상태에 있다고 가정되는 (n= 29) 래브라도 리트리버의 비디오를 포함하여 통제된 실험 환경에서 얻은 데이터 세트를 사용하여 개의 감정 상태를 최초로 해결한 것입니다. (예기). 개들의 얼굴 표정은 Dogs Facial Action Coding System(DogFACS)을 사용하여 측정되었습니다.

두 가지 서로 다른 접근 방식이 제거기 목표를 비교합니다. (1) (i) DogFACS 변수 검출기와 (ii) 포지티브/네거티브 상태 결정 트리 분류기로 구성된 2단계 파이프라인을 사용하는 DogFACS 기반 접근 방식입니다. (2) 중간 표현이 없는 딥러닝 기술을 사용하는 접근 방식입니다. 접근 방식은 각각 71%와 89% 이상의 정확도에 도달하며 딥 러닝 접근 방식의 성능이 더 좋습니다. 둘째, 본 연구는 동물의 감정 맥락에서 AI 모델의 설명 가능성을 연구한 최초의 연구이기도 합니다. DogFACS 기반 접근 방식은 특정 감정 상태와 상관관계가 있는 특정 얼굴 표정(DogFACS 변수)에 대한 인간 전문가의 이전 연구 결과를 반영하는 수학적 표현인 의사결정 트리를 제공합니다. 딥 러닝 접근 방식은 네트워크 관심의 초점 영역을 반영하는 히트맵 형태로 설명 가능성의 다른 시각적 형태를 제공하며, 경우에 따라 특정 DogFACS 변수의 특성과 관련된 초점을 보여줍니다. 이러한 히트맵은 인간의 눈에 보이지 않는 정보를 반영하는 미묘한 픽셀 패턴에 대한 네트워크의 민감도에 대한 새로운 통찰의 열쇠를 쥐고 있을 수 있습니다.

찰스 다윈(Charles Darwin)은 그의 저서 '인간과 동물의 감정 표현(The Expression of the Emotions in Man and Animals)'에서 인간과 다양한 비인간 종(이하 동물)의 감정 상태를 표현하기 위해 얼굴 표정을 사용하는 방법을 유명하게 설명했습니다. 요즘에는 얼굴 표정이 감정 상태를 인식하는 데 중요한 정보원이라는 것이 널리 인식되고 있습니다. 인간의 경우 얼굴 표정은 상호 작용을 조절하는 주요 비언어적 수단으로 작용하며 얼굴 표정과 감정 상태 사이의 연관성은 오랫동안 심리학 분야의 체계적인 연구를 통해 확립되었습니다3,4. 동물의 얼굴 표정은 대부분의 포유류 종에 의해 생성되며 인간과 마찬가지로 감정 상태에 대한 정보를 전달하는 것으로 가정됩니다6,7. 따라서 얼굴 표정은 동물 감정 및 복지 연구에서 주관적 상태의 잠재적 지표로 점점 더 연구되고 있습니다.

인간 감정 연구에서 얼굴 표정의 변화를 객관적으로 평가하기 위한 표준은 얼굴 동작 코딩 시스템(FACS8,9)입니다. FACS는 최근 여러 비인간 영장류(예: 오랑우탄10, 침팬지11, 원숭이12,13), 마모셋14, 개15 및 고양이16을 포함하여 다양한 비인간 종에 적용되었습니다. AnimalFACS라고 불리는 이러한 시스템은 인간과 마찬가지로 동물의 감정 상태를 연구하는 데 점점 더 많이 사용되고 있습니다(예: 17-19).

개의 표준화된 얼굴 표정을 식별하는 데 있어 주요 과제는 머리의 형태적 다양성과 일부 품종의 영구 주름 포함과 같은 피부 구조에 관한 것입니다. 개의 얼굴 감정 표현을 식별하기 위해 Caeiro et al.18은 DogFACS를 적용하여 온라인 비디오를 사용하여 자연주의적인 감정 환경에서 다양한 품종 및 혼합 개체의 자발적인 반응을 평가했습니다. 보상 기대(긍정적인 감정)와 좌절(부정적인 감정)을 포함하여 긍정적이고 부정적인 감정을 모두 조사했으며, 둘 다 원하는 자극에 대한 기대를 특징으로 합니다. 긍정적 기대는 "음식 시각화 또는 식사/음식 관련 단어 듣기, 목줄 시각화, 걷기 관련 단어 듣기"와 관련된 상황에서 유발되는 것으로 정의되었으며 좌절은 다음과 같이 정의되었습니다. "접근할 수 없거나 접근할 수 없게 된 원하는 자원(장난감, 음식, 공간)의 시각화"에 의해 유도됩니다. Caeiro 등18은 개가 특정 감정 상태를 구별할 때 상당히 다른 얼굴 표정을 보인다는 사실을 발견했지만, 좌절감의 맥락에서 식별된 뚜렷한 특징은 없었습니다. 따라서 Bremhorst et al.22는 Caeiro et al.18과 달리 통제된 실험 환경에서 개들의 긍정적 기대와 좌절의 표정을 조사하여 개 품종(Labrador Retriever)도 표준화하였다. 더욱이, 저자들은 이전에 학습된 주의를 끄는 반응으로 인한 간섭 위험을 제거하기 위해 비사회적 맥락을 사용했습니다. 연구된 두 가지 감정 상태를 실험적으로 도출하기 위해 높은 가치의 음식 보상이 두 가지 조건에서 유발 자극으로 사용되었습니다. 긍정적인 조건은 긍정적인 기대(조건화된 음식 기대를 통해)를 유도하고 부정적인 조건은 좌절감을 유발해야 한다고 예측되었습니다(예: 다음을 통해). 예상되는 음식 보상에 대한 접근 방지). 이 두 상태의 개들의 표정은 DogFACS를 사용하여 측정되었습니다. 저자는 "Ears Adductor" 변수가 양성 상태에서 더 흔한 반면, "Blink", "Lips Part", "Jaw Drop", "Nose Lick" 및 "Ears Flattener" 변수는 음성 상태에서 더 흔하다는 것을 발견했습니다. 조건22. 후속 연구에서 Bremhorst et al.19는 유사한 설정을 사용하여 새로운 개 그룹을 테스트했습니다. 그러나 이 연구에서는 더 넓은 범위의 맥락에 대한 이전 연구 결과의 일반화 가능성을 테스트하기 위해 두 가지 다른 유형의 보상(음식과 장난감)이 사용되었습니다.

이전 결과는 음성 조건에서 더 일반적인 4개의 추가 변수인 "귀 아래로", "입술 모서리 풀러", "혀 쇼" 및 "윗입술 올리기"로 재현되었습니다. "윗 입술 올리기"를 제외하고 확인된 모든 얼굴 표정은 개가 받을 것으로 예상하는 보상 유형과 무관했습니다. 또한 식별된 얼굴 표정에 대해 민감도, 특이성, 긍정적 및 부정적 예측 값을 포함하여 잠재적인 감정 지표로 진단 정확도의 기본 측정이 평가되었습니다. 결과는 이러한 얼굴 표정 중 어느 것도 개별 감정 지표로 자체적으로 사용되는 경우 관련 감정의 일관되고 정확한 분류를 제공하지 못했음을 나타냅니다. 이는 신호로서의 잠재적 가치를 무시하지는 않지만 아마도 얼굴 구성의 단일 요소에 초점을 맞추기보다는 얼굴 구성의 일반적인 전체적 처리를 강조할 것입니다.

Pedretti et al.24의 최근 연구에서 볼 수 있듯이 감정적인 맥락에서 청중의 존재는 개의 얼굴 표정(감정)을 조사할 때 고려해야 할 중요한 요소입니다. 19,22와 마찬가지로 저자는 개를 긍정적인 기대와 비사회적, 비사회적 좌절감에 노출시켜 테스트 세션을 불러일으켰습니다. 그들은 또한 DogFACS를 사용하여 꼬리 흔들기, 테스트 전후 타액 코티솔 농도 측정과 같은 다른 행동과는 별도로 이러한 상황에서 개의 얼굴 표정을 분석했습니다. 그들은 부정적인 조건에 비해 긍정적인 조건에서 "귀를 앞으로 내미는" 현상이 더 많이 발생한다는 것을 발견했습니다. 또한, 이 변수는 청중의 존재에 의해 긍정적인 영향을 받았으며 테스트 전 코티솔 농도와 부정적인 상관관계가 있어 개의 관심 수준을 나타내는 좋은 지표가 될 수 있음을 시사합니다. "귀가 납작해짐", "깜박임", "코 핥기", "꼬리 흔들기" 및 "징징거림"(후자의 두 개는 DogFACS 변수에 포함되지 않음)도 청중의 존재와 관련이 있었지만 코티솔 농도와는 상관 관계가 없었습니다. 이러한 행동의 의사소통 구성 요소입니다.

improve your memory

이는 DogFACS가 개 얼굴 표정을 단서(즉, 감정 상태에 수반되는 행동 변화 생성)뿐만 아니라 신호(즉, 의사소통 파트너에게 감정을 전달하기 위해 특별히 생성된 행동)로도 조사하는 역할을 할 수 있음을 보여줍니다. 또한 25를 참조하세요. 따라서 AnimalFACS 시스템은 동물의 얼굴 표정에 대한 이해를 높이는 중요한 수단을 제공합니다. 그러나 얼굴 표정 분석을 위해 이러한 시스템을 사용하는 데는 광범위한 인간 교육 및 인증이 필요한 수동 주석에 대한 의존성을 포함하여 과제가 있으며, 이는 수행하는 데 시간이 많이 걸릴 수 있으며 인간의 오류나 편견이 발생할 수 있습니다26.

자동화는 이 프로세스에 중요한 보완적 발전을 제공할 수 있는 잠재력을 가지고 있습니다. 특히 자동화된 도구는 수동 코딩보다 객관성과 신뢰성이 높아 주관성과 편견을 제거하지만27,28 성공을 위해 단일 기능 감지에 의존하지 않는다고 주장됩니다. 따라서 자동화된 표정 코딩이 Noldus29, Afdex30, EmoVu31의 FaceReader와 CAS(ME)332와 같은 광범위한 데이터베이스와 같은 수많은 상용 소프트웨어 도구를 사용하여 인간 감정 연구에서 활발한 분야라는 것은 놀라운 일이 아닙니다.

반면, 동물의 경우 얼굴 표정 분석의 자동화에 대한 연구가 부족합니다. 이는 먼저 동물 감정 연구에 대한 상대적인 최근 성장 또는 관심을 포함하여 여러 가지 과제(33,34에서 논의한 바와 같이)로 인해 발생합니다. 이는 인간 영역의 방대한 양의 데이터에 비해 훨씬 적은 양의 데이터를 사용할 수 있음을 의미합니다. 둘째, 특히 길 들여진 종의 경우 얼굴 형태의 큰 변화는 기술적 과제를 제시합니다. 마지막으로, 언어적 자기 보고가 부족하여 동물에서 경험한 감정 상태에 대한 근거 진실을 확립하는 것이 어려운 반면, 인간에서는 자기 보고가 이러한 목적을 위한 표준 접근 방식입니다. 따라서 동물에 대한 데이터 수집 프로토콜에는 광범위한 제어 및 규제, 연구된 감정 상태에 대한 조작적 정의(예18 참조) 또는 인간 전문가의 평가가 필요합니다. 그러나 이로 인해 편견과 주관적인 판단이 발생할 가능성이 있습니다.

Broomé et al.36은 동물의 감정과 고통을 자동으로 인식하는 최첨단 접근 방식을 제시하는 20개 연구에 대한 포괄적인 조사를 제공했습니다. 이들 작품의 대부분은 고통의 발생에 초점을 맞춘다. 이 맥락에서 언급된 종에는 설치류(37-39), 양(40), 말(33,41,42) 및 고양이(43)가 포함됩니다. 이러한 모든 작업은 기계 학습 기술을 사용하여 통증/통증 없음에 대한 이진 분류기를 제공합니다.

동물의 감정 인식을 보다 광범위하게 자동화하는 작업은 훨씬 더 드물습니다. 인간이 아닌 영장류에 대한 두 가지 연구는 감정 상태44,45를 명시적으로 다루지 않고 관련 Action Unit/얼굴 표정 인식에 중점을 둡니다. Blumrosen et al.44는 인간이 아닌 영장류의 네 가지 얼굴 표정(중립, 입술 깨물기, 씹기, 무작위 입 열기)을 최소한의 주석 노력으로 자동 인식하는 반면 Morozov et al.45는 붉은털원숭이에 대한 자동 MaqFACS 코딩을 위한 프로토타입 시스템을 구현했습니다. , 6개의 MacFACS 변수를 분류하도록 훈련되었습니다.

Broomé et al.36에서는 서로 다른 감정 상태에 대한 엔드투엔드 분류를 제공하는 세 가지 연구만 조사했습니다. Corujo et al.46은 말의 감정 상태를 "경악함", "짜증남", "호기심", "편안함"의 4가지로 정의했으며 각 상태를 눈, 귀, 코 및 목 행동으로 정의했습니다. 예를 들어, "이완된"은 눈: 부분적으로 ~ 대부분 닫혀 있음, 귀: 이완됨, 열린 부분은 측면을 향함, 코: 이완된 입 및 목: 거의 평행함으로 정의되었습니다. CNN(컨볼루셔널 신경망) 모델은 이러한 네 가지 감정 "클래스"를 예측하도록 훈련되었습니다. Ferres et al.47은 개에 대한 네 가지 감정 클래스 "분노", "두려움", "행복" 및 "이완"을 분류하기 위해 DeepLabCut48을 사용한 자동 자세 추정을 사용했습니다. Franzoni et al.49는 또한 CNN 모델을 사용하여 감정 상태와 관련된 제한된 속성을 "미소"("기쁨"과 관련됨), "으르렁거리다"("분노"와 관련됨), "수면"(중립적 상태와 관련됨)으로 분류했습니다. 상태).

개와 관련된 세 작품47,49,50 중 두 작품은 감정 상태47와 고통50을 인식하는 신체에 초점을 맞췄고, 한 작품은 감정의 표정49에 초점을 맞췄습니다. 그러나 Ferres et al.47 및 Franzoni et al.49의 연구에 사용된 데이터 세트에는 모두 인터넷에서 수집하고 비전문가가 주석을 추가한 이미지가 포함되어 있어 신뢰성과 타당성이 낮을 가능성이 있었습니다. Zhu50의 연구는 얼굴 표정이 아닌 신체 언어를 기반으로 통증 인식을 연구합니다.

여기에 제시된 연구는 맥락이 감정 상태를 방어하는 신중하게 설계된 실험 프로토콜에서 수집된 데이터 세트를 사용하여 얼굴 표정에서 개 감정의 자동 인식을 탐구한 최초의 연구입니다. 이 프로토콜에서는 긍정적인 기대감(긍정적인 감정)과 좌절(부정적인 감정)의 감정 상태가 조작적으로 정의되었으며(18에 따라 29명의 래브라도 리트리버 대상 샘플에서 실험적으로 유도되어 개 간의 형태학적 차이의 가변성을 최소화했습니다. 개가 생성한 얼굴 표정은 인증된 DogFACS 코더에 의해 표준화된 DogFACS 시스템을 사용하여 객관적으로 코딩되었습니다. 이 데이터 세트는 감정 정의에 대한 편견을 최소화하면서 감정 인식 자동화에 대한 다양한 접근 방식을 탐색하기 위한 독특한 실험 환경을 만듭니다. 데이터는 다음과 같은 이점을 추가로 활용합니다. 품종 표준화로 인해 참가자 얼굴의 형태학적 변화가 감소했습니다.

to36에 따르면 감정 또는 고통 상태를 분류하는 데는 두 가지 표준 경로가 있습니다. 하나는 손으로 만든 기능을 사용하는 것이고, 다른 하나는 학습된 기능을 기반으로 하는 딥 러닝 패러다임을 사용하는 것입니다51. 손으로 만든 기능은 컴퓨터 비전 문헌51에서 일반적으로 사용되는 이미지 통계(예: 방향성 그라데이션의 히스토그램)를 기반으로 하는 하위 수준 기능과 종에서 의미론적으로 기반을 둔 상위 수준 기능으로 대략 나눌 수 있습니다. 특정 해부학적 얼굴 및/또는 신체 구조, 찡그림 눈금, 동작 단위 등. 후자의 예로는 고양이 얼굴 랜드마크52, 개 신체 핵심 포인트47 또는 양 통증 동작 단위40가 있습니다. 이러한 기능은 행동 개념에 따라 모델의 결정을 기반으로 기계 학습 알고리즘의 설명 가능성을 높입니다. 반면, 딥 러닝 접근 방식은 더 유연하고 더 나은 성능을 기대하지만(특히 대규모 데이터 세트를 사용할 수 있는 경우) 값비싼 계산 리소스가 필요하고 설명에 적합하지 않다는 점에서 '블랙박스'입니다. 특정 분류 결정이 내려진 이유를 인간이 이해할 수 있는 용어로 설명합니다.

본 연구에서 우리는 개의 감정 상태를 자동으로 분류하는 두 가지 대체 경로를 모두 조사합니다. 첫 번째 경로는 설명 가능한 고급 기능으로 DogFACS 변수를 사용합니다. 이 경우 분류 파이프라인은 두 단계로 구성됩니다. 첫 번째는 DogFACS 코드의 자동 인식이고, 두 번째는 주석을 사용하여 연구된 감정을 분류하는 것입니다. 우리는 DogFACS 변수가 기계의 의사 결정에 어떻게 사용되는지 이해하기 위해 설명 가능한 표현의 유용성을 보여줍니다. 두 번째 경로는 (더 단순한, 1단계) 딥 러닝 접근 방식을 취하여 기계가 반드시 사람이 이해할 수 없는 데이터 기능에서 직접 학습할 수 있도록 합니다. 우리는 두 접근 방식 간의 설명 가능성 측면을 추가로 비교하고 히트맵 시각화 기술을 사용하여 학습된 특징과 개의 얼굴 부분과 관련된 의미 객체의 관계를 강조합니다.

결과

데이터세트.

우리는 Bremhorst et al.22의 이전 연구의 일부로 생성된 데이터 세트와 DogFACS 주석을 사용했습니다. 형태학적 변이의 영향을 줄이기 위해 극단적인 얼굴 특징이 없는 한 품종(래브라도 리트리버)의 29명 대상을 테스트했습니다(암컷 19명~중성화 13명, 수컷 10명~중성화 9명, 연령 범위: 2~9.5세, 평균 연령 {{9} }.22년). 그림 1은 피험자의 연령과 성별 분포를 보여줍니다.

데이터 세트에는 25.25 프레임/초의 프레임 속도로 녹화된 3초 길이의 전체 248개 비디오 샘플이 포함되어 있으며 각 프레임 해상도는 1920 × 1080 픽셀입니다. 녹화에 사용된 카메라는 HIKVision, IR Mini Bullet Network Camera였습니다. 레코더: HIKVision, DS-7600 시리즈. Bremhorst et al.22에 완전히 설명된 프로토콜을 사용하여 피험자를 투명한 창 뒤에 위치시켰습니다. 각 피험자는 양성 상태에서 3번, 음성 상태에서 6번 테스트를 받았습니다. 전체 동영상의 2/3에는 부정적인 주석이 달렸고, 1/3에는 긍정적인 주석이 달렸습니다. 본 연구 전반에 걸쳐 부정적인 조건은 좌절감을 유발하고, 긍정적인 조건은 긍정적인 기대를 유발한다고 가정하므로, 앞으로는 두 가지 감정 상태를 지칭하기 위해 긍정적/부정적 원자가를 사용합니다. 그림 2는 데이터 세트에서 추출한 개 얼굴 부분을 보여줍니다.

boost memory

데이터세트는 무작위 언더샘플링을 사용하여 균형을 이루었으며, (n = 29) 개인의 긍정적인 조건에 대한 82개의 비디오와 부정적인 조건에 대한 82개의 비디오, 총 164개의 비디오를 남겼습니다. 균형은 개인당 동일한 수의 양성 및 음성 샘플을 유지하면서 수행되었습니다.

모든 비디오 샘플은 인증된 DogFACS 코더에 의해 DogFACS 매뉴얼53을 기반으로 39개의 DogFACS 변수를 사용하여 코딩되었으며, 솔로몬 코더(버전 15.03.15, Andràs Péter)를 사용하여 200ms당 하나의 프레임에 주석을 달았습니다. 이러한 39개 변수 중 표 1에 제시된 11개 변수는 Bremhorst22의 연구에서 사용되었으며, 이는 양성 또는 음성 조건의 모든 샘플에서 최소 10%의 유병률과 최소한 상당한 강도의 인터코더 일치를 기반으로 합니다(22 참조). 자세한 내용은)

10 ways to improve memory

두 가지 접근 방식의 개요입니다.

여기서는 양성 및 음성 조건의 자동 분류를 위한 두 가지 접근 방식, 즉 DogFACS 기반 대 순수(DogFACS 접근 방식에는 DogFACS 변수 감지를 위한 딥 러닝 모듈도 있음) 딥 러닝 접근 방식을 비교합니다. 그림 3은 두 가지 접근 방식에 대한 높은 수준의 개요를 보여줍니다.

비디오 데이터를 사용할 수 있으므로 단일 프레임 또는 프레임 시퀀스라는 두 가지 유형의 입력으로 작업할 수 있습니다. 전자는 더 많은 정보 손실을 의미하지만 더 간단하고 제어하기 쉽습니다. 후자는 예를 들어 말42,54의 통증 감지와 같은 작업에 중요성을 갖는 것으로 밝혀진 시간적 차원을 포함합니다. 그러나 동물의 정서 상태와 통증을 자동으로 인식하는 맥락에서 널리 사용되는 접근 방식은 단일 프레임 기반입니다(예: 33,39,41,55). 이 연구의 탐색적 특성으로 인해 우리는 이 옵션을 결정했습니다.

Tus 두 접근 방식 모두 단일 프레임 기반으로 작동합니다. 즉, 비디오에서 추출된 단일 프레임에 대해 분류가 수행됩니다. 그러나 두 경우 모두 단일 프레임 정보의 집합이 다르게 수행됩니다. 프레임에서 잘린 개 얼굴을 추출하는 전처리 단계(예시 그림 2 참조)를 거친 후 심층 접근 방식에서는 잘린 원본 얼굴이 신경망의 입력으로 사용됩니다. 여기서는 컨볼루셔널 신경망(Resnet5056)과 최근 도입된 Vision Transformer57(ViT) 네트워크라는 두 가지 유형의 신경망 아키텍처를 실험합니다. 선택한 네트워크의 결정은 다수결 투표를 통해 집계되고 비디오별 분류 결정에 도달합니다.

반면 DogFACS 기반 접근 방식은 두 개의 연속 단계로 구성된 파이프라인을 사용합니다. 첫 번째는 각 프레임에서 DogFACS 변수 세트를 감지하는 자동화된 DogFACS 변수 감지기입니다. 그런 다음 DogFACS 변수가 전체 비디오에 대해 집계됩니다. 두 번째 단계는 최종 분류 결정에 도달하기 위해 적용되는 비디오에서 감지된 DogFACS 변수 세트를 입력으로 사용하는 결정 트리입니다.

따라서 DogFACS 기반 접근 방식은 비디오에서 식별된 DogFACS 변수 세트를 기반으로 분류 결정을 내립니다. 반면 딥러닝 접근 방식은 각 프레임을 개별적으로 결정하여 원시 이미지에서 학습된 특징을 추출한 다음 비디오의 모든 프레임에 대한 결정을 집계합니다. 따라서 두 가지 접근 방식의 설명 가능성을 탐색할 때 전자에서는 Bremhorst et al.22(각 조건 또는 이들의 일부 조합에서 널리 사용되는 변수 식별)의 라인을 따라 '설명'이 있을 것으로 예상됩니다. 그러나 후자의 접근 방식은 아래에 자세히 설명된 것처럼 모델이 어떤 이미지 특징에 중점을 두는지에 대한 더 많은 시각적 설명을 제공할 것으로 예상됩니다.

모델의 성능을 평가하기 위해 우리는 기계 학습의 표준 방법인 정확도, 정밀도 및 재현율의 표준 측정항목을 사용했습니다. 검증 방법으로 주제가 겹치지 않는 단일 주제 아웃 교차 검증을 사용했습니다. 이는 각 개 주제를 별도의 테스트 세트로 활용하는 것을 의미합니다. 이 방법은 한 개인이 둘 이상의 관련 샘플을 가지고 있는 데이터 세트에 권장됩니다. 적절한 검증 방법 선택의 중요성에 대한 논의는 Broomé et al.36을 참조하십시오.

short term memory how to improve

DogFACS 기반 접근 방식.

DogFACS 변수 세트. 우리는 두 가지 서로 다른 DogFACS 변수 세트를 실험했습니다.

1. Bremhorst et al.22의 연구에서 활용된 표 1에 제시된 11개 변수 세트는 가장 유망하거나 잠재적으로 가장 중요한 변수입니다(두 가지 유형의 모든 표본에서 최소 10%의 유병률을 기준으로 함). 긍정적이거나 부정적인 조건) 안정적으로 코딩될 수 있습니다(적어도 상당한 강도의 인터코더 일치가 있는 경우, 22 참조).

2. Bremhorst et al.22의 연구에서 코딩된 39개 DogFACS 변수의 전체 세트.

Classification results. To explore optimal performance, we used the manual DogFACS annotations from Bremhorst et al.22 to experiment with different machine learning techniques, including Decision Tree, XGBoost, and Random Forest. Table 2 presents a comparison of their performance, with Random Forest performing slightly better for the full set of DogFACS variables (39 variables), reaching accuracy > 71%. In the limited set (11 DogFACS variables), the three models converged to one tree, and thus are presented together, reaching a slightly lower accuracy of > 66%.

의사결정 트리를 최소화합니다. 다음으로, 우리는 표 2에 제시된 것과 동일한 분류 성능을 산출할 수 있는 최소한의 DogFACS 변수 세트에 대해 체계적 검색을 수행했습니다. 표 3은 하나의 DogFACS 변수만 특징으로 사용하면 표 2에 제시된 것과 유사한 성능이 보장된다는 것을 보여줍니다. 변수 'Ears Flattener'는 제한된 11개의 DogFACS 변수 세트를 사용한 분류에 가장 중요하며, 이 변수의 존재는 음성 상태를 예측합니다. 그림 4는 긍정적인 조건인 'Ears Flattener' 부재와 부정적인 조건인 존재(정확도 > 66%)를 예측하는 단 하나의 특징으로 단순화된 의사 결정 트리를 보여줍니다.

특히, 39개 DogFACS 변수를 모두 고려할 때 'Eyes Up'은 39개 변수를 모두 사용한 분류에 가장 중요한 변수로, 이 변수가 있으면 71% 이상의 높은 정확도로 양성 조건을 예측합니다.

DogFACS 변수 자동 감지. 우리의 연구 결과에 따르면 완전 자동화된 분류 파이프라인에는 'Ears Flattener' 및 'Eyes Up' DogFACS 변수에 대한 탐지기를 훈련하는 것으로 충분합니다. 또한 균형 잡힌 데이터 세트(DogFACS 가변 주파수의 가변성으로 인해 다양한 수의 이미지)에서 사전 훈련된 ResNet50 컨벌루션 신경망을 사용하여 다른 변수의 감지를 탐색했습니다. 획득된 검출기의 성능은 표 4에 제시되어 있습니다.

ways to improve memory

깊은 접근.

이 접근 방식에서 우리는 인간 주석을 사용하여 사전 훈련된 고정 백본 위에 선형 프로브를 훈련시키는 일반적인 "전이 학습" 설정을 사용했습니다. 우리는 사전 훈련된 4개의 백본(이미지 분류를 위한 감독 방식57 또는 DINO58을 사용한 자체 감독 방식으로 훈련된 ResNet 및 ViT)을 사용하여 실험을 반복함으로써 이 작업에 대한 다양한 백본의 적합성을 탐색합니다.

우리는 4개의 서로 다른 모델(전체 데이터 세트)을 훈련하고 위에 설명된 동일한 균형 잡힌 데이터 세트의 프레임을 사용하여 성능을 테스트했습니다(부정 조건의 82개 비디오, (n = 29)개 개인의 긍정적 조건 비디오 82개, 전체 동영상 164개).

Table 5는 비디오 별로 분석된 분류 결과를 보여준다. 즉, 비디오의 대부분의 프레임이 올바르게 분류되면 비디오가 올바르게 분류되었다고 말한다. DINO-ViT 백본으로 훈련된 모델은 89% 이상의 정확도로 최고의 성능을 보이는 것을 볼 수 있습니다. Table 6은 프레임별로 분석한 분류 결과를 보여준다. 예상한 대로 이 경우 프레임 집계에 대해 수행된 분석에 비해 측정값이 다소 감소하여 DINO-ViT 백본으로 훈련된 모델의 정확도가 85%입니다.

memory enhancement

논의

The present study is the first to explore automated recognition of canine emotional states focusing on diverse facial expressions, whilst using a carefully designed controlled experimental setup for dataset creation and annotation. We present classifiers of two different types: deep learning-based and DogFACS-based, both having a performance that is comparable to and in some cases outperforms those presented in previous studies addressing recognition of pain or emotional state from facial expressions, including mice38,39 (> 89% and 93% respectively), cats43 (> 72%), horses42,46 (> 75% and 65% respectively) and sheep55 (> 64%).

The DogFACS-based approach described here reached an accuracy of > 71% using the full set (n = 39) of DogFACS variables, but a lower accuracy of > 66% when using only the eleven DogFACS variables which were utilized in the study of Bremhorst et al.22 ( this accuracy was achieved based on manual DogFACS annotations and is expected to drop even lower in an end-to-end pipeline). Of the full set of 39 DogFACS variables, 'Eyes Up' were of considerable importance for classification, and including them in the Decision Tree leads to higher accuracy (>71%). 그러나 눈 움직임과 같은 방향 변수와 그 중요성을 잠재적인 감정 지표로 해석할 때 데이터가 수집된 연구의 실험 설정을 항상 고려해야 합니다. Bremhorst et al.22에서 실험자는 개의 아이라이너 약간 위에서 동작하여 음식 보상을 전달했습니다. 이는 개가 음식을 기대하면서 위를 쳐다보도록('Eyes Up' 변수 유도) 장려했을 수 있습니다. 따라서 우리는 이 DogFACS 변수가 실험 절차의 인공물일 수 있음을 인식해야 합니다. 감정 지표 개발의 일부로 변수를 선택할 때 제1종 오류(거짓양성)와 제2종 오류(거짓음성)의 위험을 비교하는 것이 중요하며 이는 거의 피할 수 없습니다. 11개의 DogFACS 변수로 구성된 축소된 세트를 사용하여 작업할 때 추가 조사에서 변수를 조기에 제외하지 않기 위해 위양성보다 위음성 방지에 우선순위를 두었습니다. 잘못 수용된 변수는 예측 타당성이 부족한 것으로 확인되면 후속 연구에서 제외될 것으로 예상할 수 있습니다(19에서 논의한 바와 같이).

As a byproduct of these results, we obtained automated detectors for nine DogFACS variables, of which five performed with an accuracy >70%로 DogFACS 변수의 정확한 자동 인식 가능성을 입증했습니다. 각 변수에 대한 탐지기 훈련의 주요 과제는 데이터 가용성입니다. 즉, 일부 DogFACS 변수의 출현 빈도가 낮아 특정 변수에 대한 데이터 세트를 수집하기 위한 집중적인 노력이 필요합니다. 더욱이 일부 변수는 시간적 차원을 갖고 있어 단일 프레임 기반으로 처리할 수 없습니다(예: 눈 깜박임 또는 헐떡거림). 이를 위한 검출기를 개발하려면 Broomé et al.42의 접근 방식과 같은 시간 역학을 활용하는 모델이 필요합니다.

또한 우리의 데이터 세트가 한 품종으로 제한되어 있으므로 즉각적인 향후 연구 요구 사항은 다른 품종에 대한 모델의 일반화 가능성을 평가하는 것입니다. 결과를 다른 품종으로 이전할 때 성능이 크게 떨어지면 여기에 사용된 심층 접근 방식에 대한 대체 접근 방식이 표시됩니다(예: Feighelstein et al.43).

improve your memory

여기에 제시된 모델의 일반화 가능성을 탐색하는 것은 DogFACS 변수 감지의 맥락뿐만 아니라 감정 분류에도 중요합니다. 여기에 사용된 데이터 세트는 품종뿐만 아니라 엄격하게 통제된 환경 조건에서 기록됩니다. 통제된 환경에서 자연주의적인 설정으로 일반화하는 것은 인간의 감성 컴퓨팅에서도 매우 어려운 과제입니다60. Feng et al.61은 전이 학습 기술이 제한된 양의 데이터 샘플, 부족한 레이블 및 환경 가변성과 관련된 문제를 극복할 수 있는 방법에 대한 인간 영역에 대한 검토를 제공하여 감정 인식을 위한 강력하고 일반화 가능한 자동화 시스템을 촉진합니다. 개과의 감성 컴퓨팅에서도 비슷한 방법을 탐색할 수 있습니다. 여기에 제시된 결과는 이 방향에 대한 추가 탐색을 위한 기준선을 제공합니다.

'기계가 동물의 감정 상태를 인식할 수 있을까?'와 같은 질문이 있습니다. 그 자체로 흥미롭고 동물 복지에 대한 광범위한 실제 적용이 가능합니다. 우리 연구 결과는 적어도 개의 긍정적인 좌절과 기대의 경우 긍정적인 대답에 대한 몇 가지 징후를 제공합니다. 그러나 개 감정을 인식하는 AI 모델을 구축하면 기계가 감정을 분류하는 방법, 인간 전문가가 볼 수 없는 뉘앙스에 민감한지 여부, 동물 감정에 대한 이해에 어떤 영향을 미치는지 이해하는 데 상당한 부가가치가 있습니다. 동물의 감각에 관한 논쟁. 이러한 이유로 설명 가능성(기계 결정의 근거는 무엇입니까?)과 해석 가능성(모델 구조가 그러한 결정을 내리는 것과 어떻게 관련되어 있습니까?)을 탐구하는 것이 중요하고 유망합니다. 이러한 주제는 AI의 기본이며 대규모 연구63-65에서 다루어지며, 대부분의 노력은 복잡한 구조로 인해 해석 가능성이 제한되는 딥 러닝 접근 방식에 중점을 두고 있습니다66. 설명 방법은 본질적으로 영역별로 다릅니다. 취업 면접에서 자동화된 성격 특성 인식에 대한 설명을 제공하는 것은 예를 들어 의학적 결정에 대한 임상적 정당성을 제공하는 것과 다릅니다62.

increase brain power

우리의 연구는 동물 감정 인식을 위한 AI 모델의 설명 가능성 측면을 최초로 다룬 것입니다. 감정 분류에 대한 두 가지 다른 접근 방식을 비교했을 때, 두 접근 방식이 다루는 설명 가능성 측면의 차이점도 비교할 수 있다는 점에서 가치가 더해졌습니다. DogFACS 기반 접근 방식은 특정 DogFACS 변수의 존재 여부에 관한 부울 조건의 조합 형태로 인간의 논리적 추론을 모델링하는 간단한 의사결정 트리 형태의 모델로 이어집니다. 의사결정 트리의 설명적 특성은 특히 여기에서 연구된 것('Ears Flattener' 사용)과 같이 노드가 하나만 있는 단순화된 버전에 반영됩니다. 이러한 트리는 인간 전문가, 특히 Bremhorst et al.19가 연구한 감정 지표에 유용한 개념과 밀접하게 관련되어 있습니다. 유효한 감정 지표는 감정이 있을 때마다 존재하고 그렇지 않은 경우에는 특정 감정 상태를 정확하게 식별하기 위한 것입니다.

이러한 특성은 진단 테스트의 정확성을 평가하는 데 일반적으로 사용되는 측정항목인 민감도와 특이도로 설명됩니다. Bremhorst et al.19는 연구에서 고려된 DogFACS 변수 중 어느 것도 개의 긍정적인 기대 또는 좌절감을 나타내는 특정 개별 지표로 간주될 수 없음을 발견했습니다. 구체적으로 'Ears Flattener'는 민감도는 상대적으로 높으나 특이도는 낮은 것으로 나타났다. 따라서 'Ears Flattener'를 단일 기능으로 사용하는 의사결정 트리인 우리 연구에서 설명된 모델이 높은 성능을 달성하지 못했다는 것은 놀라운 일이 아닙니다. 그러나 Bremhorst et al.19에서 사용하는 감정 지표의 측정항목과 모델의 성능을 평가하기 위해 여기에서 사용하는 측정항목 간의 관계는 간단하지 않습니다. 전자가 전체 불균형 데이터에 대한 민감도, 특이성, 양성 및 음성 예측 값을 계산하는 반면, 후자는 예측 작업의 성능을 평가합니다. 이는 데이터가 모델을 훈련하는 데 사용되는 훈련과 성능 평가를 위한 테스트라는 두 부분으로 분할된다는 것을 의미합니다. Bremhorst et al.19와 달리 우리는 언더샘플링을 사용하여 데이터 균형을 맞추었습니다. 그러나 둘 사이의 직관적 연결은 전자의 접근 방식을 사용하여 우수한 감정 지표를 찾았다면 이를 특징으로 하는 의사결정 트리도 우수한 성능에 도달할 것으로 예상할 수 있다는 것입니다.

설명 가능성 외에도 개 감정을 예측하기 위한 최적의 의사결정 트리 모델을 검색하기 위해 여기에 제시된 기계 학습 접근 방식은 감정 지표에 대한 새로운 통찰력을 가져올 가능성이 있습니다. 위에서 논의한 바와 같이 Bremhorst et al.19의 관점에서 정확한 감정 지표의 발견은 감정 예측을 위한 단일 DogFACS 변수를 사용하여 의사결정 트리 분류기를 찾는 문제와 밀접한 관련이 있습니다. 이러한 분류기는 우리 연구에서 정확도가 높은 것으로 나타나지 않았지만(실제로 정확한 감정 지표는 발견되지 않았습니다19), DogFACS 변수를 쌍으로 그룹화하는 등 보다 정교한 형태의 의사 결정 트리를 고려하여 분류 성능을 향상시킬 수 있습니다. , 트리플 등. 그림 5에 표시된 DogFACS 변수 쌍을 노드로 사용하는 예비 실험은 이것이 리콜 측면에서 모델의 성능을 향상시켰음을 보여줍니다. 중요한 것은 DogFACS 변수의 어떤 조합이 분류를 개선할 수 있는지에 대한 조사가 자동화되고 철저하며 체계적인 방식으로 수행될 수 있으며 잠재적으로 감정 지표에 대한 보다 세밀한 개념으로 이어질 수 있다는 것입니다. 이는 향후 연구를 위한 유망한 경로를 제공합니다.

반면, 딥러닝 접근 방식은 89% 이상의 눈에 띄게 높은 성능을 달성하여 감정 분류에 대한 이러한 접근 방식의 잠재력을 보여주었습니다. 또한 DINO-ViT 백본은 조사된 네 가지 옵션 중에서 감정 분류 작업에 가장 적합한 것으로 보입니다. 우리는 이것이 67에 표시된 것처럼 DINO-ViT 기능이 물체 부분에 민감하기 때문이라고 가정합니다. 감정 분류 작업의 특성상 객체-부분(눈, 귀 등 얼굴 부분) 수준의 이해가 필요합니다. 흥미롭게도 DINO로 사전 훈련된 백본은 감독된 백본보다 더 나은 결과를 생성합니다.

딥러닝 분류기는 이미지를 기반으로 작동한 다음 비디오별로 결과를 집계한다는 점에 유의해야 합니다. 이는 많은 프레임이 DogFACS 변수의 존재를 나타내지 않음에도 불구하고 모델이 여전히 올바른 분류에 성공했음을 의미합니다. 이는 인간의 눈의 능력을 넘어서는 픽셀 수준의 세밀한 세부 사항에 대한 모델의 민감도를 나타낼 수 있습니다. 그러나 이는 내재된 편견의 형태로 잠재적인 함정과 관련될 수도 있습니다. 또한 위에서 논의한 'Eyes Up' 변수는 네트워크에 중요한 역할을 했을 수 있으며, 의사 결정에 미치는 영향이 딥러닝 네트워크에서는 쉽게 무력화되지 않습니다. 이러한 문제를 조사하려면 이러한 함정을 배제하기 위해 다양한 실험 및 환경 조건에서 추가 데이터 수집이 필요합니다.

반면에 여기에서 고려된 딥 러닝 접근 방식의 설명 가능성은 DogFACS 기반의 접근 방식과 완전히 다르며 시각적인 특성이 더 높습니다. 의사결정 트리 모델과 달리 신경망의 매우 복잡한 '블랙박스' 특성으로 인해 인간이 이해할 수 있는 용어로 신경망의 의사결정을 설명하는 것은 극히 어렵습니다68. EigenCAM59 방법을 사용하면 우리가 실험한 다양한 모델(ResNet/ViT, 감독/DINO) 간의 차이점이 강조됩니다. 그림 6에서 볼 수 있듯이 모델 간에는 약간의 차이가 있습니다. Te ViT 모델은 고도로 활성화된 영역(빨간색으로 표시)이 더 작고 더 두드러진 영역(예: 피부보다는 눈, 귀, 코)에 있기 때문에 ResNet 모델보다 더 나은 위치 파악을 나타내는 것으로 보입니다. 더욱이 DINO-ViT 모델은 하나가 아닌 여러 개의 두드러진 영역에서 활성화되는 것으로 보입니다(예: 오른쪽 위 예의 귀가 아닌 귀, 눈, 코에서 활성화). 우리는 ViT 기반 모델의 성공을 ResNet 모델보다 더 지역화된 신호를 제공하는 ViT의 능력에 기인합니다. 이는 아키텍처에서 비롯됩니다. ViT 기능의 해상도는 레이어 전체에서 일정하게 유지되는 반면 CNN 기능의 해상도는 레이어가 깊어질수록 감소합니다.

확실한 결론에 도달하려면 추가 연구가 필요하지만 다음 조건을 만족하는 프레임에 주의를 집중하는 EigenCAM 방법을 실험했습니다. (i) 'Ears Flattener' 변수를 사용하여 수동으로 코딩하고 (ii) 비디오 샘플 클래스에 속합니다. 부정적인 조건, 그리고 (iii) DINO-ViT 네트워크에 의해 부정적인 조건으로 올바르게 분류되었습니다. 분석에서 우리는 그림 7에서 볼 수 있듯이 예를 세 가지 범주로 나누었습니다. 범주 A의 예는 귀에만 명확하게 초점을 맞춘 히트맵입니다. 이는 DogFACS 관련 'Ears Flattener' 설명과 일치한다고 볼 수 있습니다. 즉, 모델이 귀 움직임과 관련된 패턴을 학습한 경우일 수 있습니다. 카테고리 B도 이와 일치하여 귀와 눈, 이마, 코, 입 등 기타 영역에 초점을 맞춘 히트맵을 보여줍니다. 후자는 'Ears Flattener' 움직임뿐만 아니라 다른 DogFACS 변수 또는 프레임에 존재할 수 있는 다른 자세 특징과도 간접적으로 관련될 수 있습니다. 그러나 가장 흥미로운 카테고리는 카테고리 C입니다. 여기서 모델은 귀가 아닌 얼굴 부분의 신호를 포착하여 여전히 올바른 분류를 수행합니다. 이러한 사례는 인간의 눈에는 보이지 않는 미묘한 차이에 대한 네트워크의 민감도를 이해하는 열쇠가 될 수 있습니다. 어떤 경우든 DogFACS 주석은 네트워크가 민감한 픽셀 패턴에 반영될 수 있는 얼굴 행동의 가능한 모든 변화를 철저하게 다룰 수는 없다는 점에 유의해야 합니다. 그런 다음 주석이 달린 DogFACS 변수가 없는 비디오에서도 히트맵을 추출했습니다. 변수가 없는 영상이 9개 있었는데, 그 중 8개는 '긍정', 1개는 '부정'이었습니다. 놀랍게도 이러한 동영상의 대부분(77%)은 여전히 모델에 의해 올바르게 분류되었습니다. 이는 DogFACS에서 캡처하지 못한 미묘한 얼굴 동작을 모델이 포착했다는 또 다른 표시일 수 있습니다. 이러한 비디오 프레임에 대해 생성된 히트맵을 조사할 때 우리는 코-입 영역이 모델의 주요 초점이라는 것을 관찰했습니다. 일부 프레임에서는 얼굴의 다른 부분에 초점이 맞춰져 있는 경우도 있고, 프레임은 올바르게 분류되었으나 히트맵이 흐릿하고 불분명한 경우도 있습니다. 이 세 가지 범주의 예가 그림 8에 나와 있습니다. 흥미롭게도 이러한 히트맵은 특정 얼굴 부분에 초점이 부족하여 실제로 이러한 경우 모델에 대한 시각적 단서가 덜 분명하다는 것을 나타냅니다.

increase memory power

improve short term memory

성능과 관련된 두 가지 접근 방식과 관련된 또 다른 주목할만한 문제는 현재 데이터 세트의 비디오 길이(3초)가 짧다는 것입니다. 더 긴 비디오를 사용하면 내부 상태가 일정한 것으로 간주될 수 있는 최적의 시간 창을 식별하는 문제가 발생합니다. 이 문제는 말의 낮은 등급 정형외과적 통증의 맥락에서 고려되었으며 개 감정 상태에 대한 향후 연구의 중요한 방향입니다.

요약하자면, 이 연구는 얼굴 표정에 기초한 개의 두 가지 감정 상태, 즉 긍정적인 상태와 부정적인 상태에 대한 두 가지 서로 다른 자동 분류 접근 방식의 가치를 보여주었습니다. 두 방법 모두 동물 효과를 자동으로 인식하는 데 있어서 다른 최첨단 방법과 비교할 수 있는 우수한 정확도에 도달했습니다. 이러한 결과는 처음으로 '기계가 개의 긍정적/부정적 감정을 인식할 수 있는가?'라는 질문에 대한 긍정적인 대답을 제공할 뿐만 아니라, 기계가 이를 어떻게 인식하는지, 그리고 이러한 인식을 인간에게 설명할 수 있는 방법을 탐색하는 새로운 연구 경로를 열어줍니다. . 더 폭넓은 참가자 특성을 지닌 더 큰 데이터세트를 사용한 추가 실험을 통해 좋은 동물 감정 지표를 개발하는 방법에 대한 이해도 높아질 것입니다. 특히 유망해 보이는 구체적인 방향 중 하나는 OpenFace70 및 Google MediaPipe71과 같은 얼굴 랜드마크 감지와 관련된 접근 방식의 잠재력을 탐색하는 것입니다. 인간이 아닌 동물에 대해서도 유사한 접근법이 이제 막 연구되기 시작했습니다. 예를 들어 고양이 얼굴에 대한 Feighelstein et al.43의 연구를 참조하십시오. 인간 영역에서와 마찬가지로 이를 개발하려면 다양한 종에 대한 대규모 데이터 세트 수집을 위한 광범위한 학제간 노력이 필요합니다.

행동 양식

데이터세트.

이 연구에 사용된 개와 관련된 데이터 세트는 이전에 Bremhorst et al.에 따라 링컨 대학(UID: CoSREC252)의 다음 윤리적 승인에 따라 수집되었으며 이 연구에 대한 수정 사항은 링컨 대학에서 얻은 것입니다. 본 연구에서는 원본 데이터 세트를 사용합니다. 이 데이터를 사용하는 현재 프로토콜은 하이파 대학 윤리위원회에서 검토되었으며 추가 승인이 필요하지 않았습니다.

자르기 및 전처리.

이 단계는 DogFACS 및 심층 접근 방식 모두에 관련됩니다. 원본 비디오 프레임에는 주변 방, 인간, 개 몸 등을 포함한 배경이 어수선하게 포함되어 있습니다. 우리는 개의 얼굴 표정에 초점을 맞추고 다른 감정 상태 예측 변수(예: 개의 몸 자세)를 학습하는 것을 피하는 것을 목표로 합니다. 따라서 우리는 개 얼굴을 식별하도록 Mask-RCNN72를 교육하고 이를 사용하여 각 이미지에서 얼굴 경계 상자를 자릅니다. 우리는 이 데이터 세트에서 약 200개의 주석이 달린 이미지에 대해 Mask-RCNN을 교육하여 이 특정 실험 설정에 가장 적합하도록 만들었습니다. 전처리 단계를 사용하여 얻은 얼굴 작물의 예는 그림 2에서 볼 수 있습니다.

DogFacs 기반 접근 방식.

비디오에서 DogFACS 변수까지. 전체 파이프라인은 다음 다이어그램(그림 9 참조)에 설명되어 있습니다. 여기에는 다음 단계가 포함됩니다.

• 위에서 설명한 방법을 사용하여 프레임 밖으로 개 얼굴을 자릅니다.

• DogFACS 변수 데이터 세트 구축 모든 DogFACS 변수에 대해 Bremhorst et al.22의 수동 DogFACS 코딩을 사용하여 긍정적인 예와 부정적인 예(이 DogFACS 변수를 표현하거나 표현하지 않는 개 얼굴)가 있는 두 개의 폴더를 만들었습니다. 포지티브 샘플(변수 존재)의 경우 이 변수로 수동으로 코딩된 모든 프레임의 이미지를 선택했습니다. 네거티브 샘플의 경우 해당 변수가 처음 나타날 때까지(또는 존재하지 않는 경우 비디오가 끝날 때까지) 코딩에 변수가 표시되지 않은 비디오의 프레임을 선택했습니다. 그런 다음 데이터 세트의 균형을 맞추고 각 변수에 대한 긍정적인 예와 부정적인 예에 대해 동일한 수의 이미지를 남겨 두었습니다. 표 4는 검출기가 획득된 모든 DogFACS 변수에 대한 데이터 세트의 크기를 보여줍니다.

DogFACS 변수부터 감정 상태 분류까지. 우리는 Imagenet 가중치로 초기화된 사전 학습된 ResNet50 네트워크 아키텍처를 기반으로 하는 전이 학습을 사용했습니다. 최상위 레이어를 평균 풀 레이어, 20% 드롭아웃 레이어, 2개 클래스 분류자 레이어로 대체했습니다. 모델은 학습률 0.0001의 Adam 최적화 프로그램을 사용하여 20 에포크 동안 학습되었습니다. 검증 데이터 세트에서 최대 정확도를 달성한 모델이 최고의 모델로 선정되었습니다. 처음 10개의 에포크 동안 모든 레이어의 가중치가 미세 조정되었습니다. 처음 10개의 에포크 동안 모든 레이어의 가중치가 미세 조정되었습니다. 남은 에포크 동안 ResNet50 가중치는 동결되었고 새로운 최상위 레이어의 가중치만 업데이트되었습니다. 방향과 관련되지 않은 변수('Ears Flattener', 'Lips Part', 'Ears Adductor', 'Ears Forward' 및 'Nose Lick')에 대해 무작위 이미지 수평 FIP 및 최대 회전을 기반으로 확대 기술을 적용했습니다. 20도. 인코더의 입력으로 각 행이 각 비디오의 11개 DogFACS 변수 각각의 존재(1)/부재(0)를 나타내는 입력 테이블을 사용했습니다. 인코더의 대상은 각 영상의 조건(부정(0)/긍정(1))을 포함하는 테이블입니다.

supplements to boost memory

깊은 접근.

최근까지 CNN(Convolutional Neural Network)은 컴퓨터 비전 작업에서 최첨단 기술로 간주되었습니다. 최근 ViT(Vision Transformer)57 아키텍처가 대안으로 등장했습니다73. 훈련을 위한 DINO 방법은 자가 증류 학습 프레임으로 2021년에야 도입되었습니다. 이 구성에서 여러 DNN 백본(ResNet50, Visit-Small, vit-base 등)을 교육한 결과 DINO 접근 방식으로 교육된 ViT 백본이 ImageNet 표준 데이터 세트74에 대한 이전 분류 결과보다 성능이 뛰어난 것으로 나타났습니다.

우리는 감독 및 DINO 학습 백본에 ResNet50 아키텍처를 사용했습니다. ViT-S/16은 감독 방식으로 훈련되었고 ViT-S/8은 DINO로 훈련되었습니다. 우리는 Timm Library75에서 사전 훈련된 ViT 가중치를 사용합니다. 베타 =(0, 0.999) 및 학습률(ResNet 백본의 경우 10−4, ViT 백본의 경우 5 · 10−6)과 함께 Adam Optimizer76을 사용하여 30 에포크에 대해 4개 모델을 모두 교육합니다. 훈련된 모델의 손실 곡선은 그림 10에 나와 있습니다.

지도 시각화.

우리는 각 모델에 대한 최종 활성화의 주요 구성 요소를 시각화하기 위해 Eigen-CAM 방법을 선택했습니다. Eigen-CAM은 널리 사용되는 Grad-CAM77과 같은 다른 CAM 방법에 비해 적은 계산으로 더 쉽게 해석 가능한 결과를 제공하는 것으로 나타났습니다. 또한 Grad-CAM59 및 Grad-CAM++78과 같은 다른 시각화 방법과 달리 Eigen-CAM은 클래스 독립적인 도구입니다. 이 속성을 통해 Eigen-CAM은 예측이 잘못된 경우에도 관련 없는 맵을 생성하는 기존 CAM 방법과 달리 모델 예측이 잘못된 경우에도 학습된 패턴을 시각화할 수 있습니다. EigenCAM의 이러한 속성을 통해 예측 실패 이유를 해석할 수 있습니다. 다른 최첨단 시각화 방법에 비해 더 일관되고 클래스 차별적입니다. 또한 EigenCAM은 모델별로 다르므로 레이어를 변경하지 않고도 ViT와 CNN 모두에 사용할 수 있습니다.