피셔 정보 계량

정보 기하학에서 피셔 정보 계량[1] 매끄러운 통계적 다양체, 즉, 확률 공간에서 정의된 확률 측도를 갖는 매끄러운 다양체에서 정의할 수 있는 특정 리만 계량이다. 측정들 사이의 정보 차이를 계산하는 데 사용할 수 있다.

이 계량은 여러 측면에서 흥미롭다. Chentsov의 정리에 따르면 통계 모델의 피셔 정보 계량은 충분한 통계 하에서 불변인 유일한 리만 계량이다.[2][3]

이는 상대 엔트로피의 극소 형태(, 쿨백-라이블러 발산)로 이해될 수도 있다. 구체적으로는 발산의 헤세 행렬이다. 또는 변수를 적절하게 변경한 후 평평한 공간 유클리드 계량에 의해 유도된 계량으로 이해될 수도 있다. 복소 사영 힐베르트 공간으로 확장되면 푸비니-슈투디 계량이 된다. 혼합 상태로 표현하면 양자 Bures 계량이다.

순수하게 행렬로 보았을 때, 피셔 정보 행렬로 알려져 있다. 관측된 무작위 변수의 관점에서 숨겨진 매개변수를 추정하는 데 사용되는 측정 기술로 여겨지며 관측된 정보라고 한다.

정의

좌표 가 주어진 통계적 다양체가 주어지면, 확률 밀도를 의 함수 로 쓴다. 여기서 는 (이산 또는 연속) 확률 변수 에 대한 값 공간 에서 추출된다. 확률은 로 정규화된다. 여기서 의 분포이다.

피셔 정보 계량은 다음과 같은 형식을 취한다.

적분은 의 모든 값 에 대해 수행된다. 변수 는 이제 리만 다양체의 좌표이다. 이름표 다양체의 국소 좌표축을 나타낸다.

마르코프 과정에서와 마찬가지로, 확률이 깁스 측도에서 파생되면 라그랑주 승수로 이해될 수도 있다. 라그랑주 승수는 어떤 수량의 기대값을 일정하게 유지하는 것과 같은 제약 조건을 적용하는 데 사용된다. 개의 서로 다른 기대값을 일정하게 유지하는 개의 제약 조건이 있는 경우 다양체의 차원은 원래 공간보다 차원 더 작다. 이 경우 계량은 분배 함수에서 명시적으로 유도될 수 있다. 거기서 유도가 제시된다.

정보 이론에서 로 대입하면 위 정의의 동등한 형식은 다음과 같다.

등식이 위의 정의와 동일하다는 것을 보여주기 위해 다음을 참고하라.

이고, 양 변에 를 취한다.

피셔 정보 계량은 지수족에 대해 특히 간단하다. 계량은 다음과 같다. 자연 매개변수를 사용하는 경우 계량은 특히 간단한 형식을 갖는다. 이 경우, 이고, 따라서 계량은 과 같다. .

정규 분포

다변량 정규분포 가 precision 행렬이라 하자.

이므로 계량은 평균 부분과 정밀도/분산 부분으로 분할된다. 평균 부분은 정밀도 행렬 이다. 정밀도 부분은 .

특히, 단일 변수 정규 분포의 경우, . 라 하면 이다. 이는 푸앵카레 반평면이다.

두 개의 일변수 정규 분포 사이의 측지선은 축 또는 축 중심에 있는 반원호 중 하나에 평행하다.

를 연결하는 측지선은 여기서 이고, 호 길이 매개변수화는 과 같다.

쿨백-라이블러 발산과의 관계

또는 상대 엔트로피 또는 쿨백-라이블러 발산의 2차 도함수로 계량을 얻을 수 있다.[4] 이를 얻기 위해 두 가지 확률 분포를 고려한다. 이는 서로 무한소만큼 떨어져있다.

j 방향으로 의 무한소 변화이다. 일 때 쿨벡-라이블러 발산 이 절대 최소값은 0을 가지므로, 에서 2차까지 멱급수 전개된다:

.

대칭 행렬 은 양의 (반) 정부호이며, 임계값 에서 함수 헤세 행렬이다. 이는 직관적으로 "통계적 미분 다양체에서 무한소만큼 떨어진 두 점 사이의 거리는 두 점 사이의 정보 차이이다."라고 생각할 수 있다.

루파이너 기하학과의 관계

루파이너 계량 과 바인홀트 계량은 평형 통계 역학에서 발견되는 것과 같은 깁스 분포에 대해 계산된 피셔 정보 계량이다.[5][6]

자유 엔트로피의 변화

리만 다양체에서 곡선의 작용은 다음과 같이 주어진다.

여기서 경로 매개변수는 시간 t이다. 이 작용은 시스템이 a 시간에서 b 시간으로 이동할 때 시스템의 자유 엔트로피에 변화를 주는 것으로 이해될 수 있다.[6] 구체적으로 자유 엔트로피의 변화로

를 얻는다. 이러한 관찰은 화학 및 가공 산업에 실제적으로 적용되는 결과를 가져왔다.: 시스템의 자유 엔트로피 변화를 최소화하려면 프로세스의 원하는 끝점 사이의 극소 측지 경로를 따라야 한다. 측지선은 작용이 곡선의 길이 제곱에 의해 아래로 제한된다는 코시-슈바르츠 부등식으로 인해 엔트로피를 최소화한다.

젠슨-섀넌 발산과의 관계

피셔 계량을 사용하면 작용과 곡선 길이가 젠슨-섀넌 발산과 관련될 수도 있다.[6] 구체적으로,

여기서 피적분 함수 dJSD는 선택한 경로를 따라 젠슨-섀넌 발산의 무한소 변화로 이해된다. 마찬가지로, 곡선 길이에 대해 다음과 같다.

즉, 젠슨-섀넌 발산의 제곱근은 단지 피셔 계량(다음의 제곱근으로 나눈 값)이다.

이산 확률 공간, 즉 유한 집합의 확률 공간에 대해 피셔 계량은 단순히 변수를 적절하게 변경한 후 단위 구의 양의 오탄트 (예: 에서 "사분면")로 제한된 유클리드 계량으로 이해될 수 있다.

으로 매개변수화된 차원 유클리드 공간을 생각하자. 유클리드 공간의 계량은 다음과 같이 제공된다.

여기서 는 제 1형식이다; 이는 여접공간의 기저 벡터이다. 접공간의 기저 벡터로 사용되므로

.

유클리드 계량은 다음과 같이 쓸 수 있다.

위첨자 'flat'은 좌표 형식으로 작성될 때 이 계량이 평면 공간 좌표를 기준으로 한다는 점을 상기시키기 위한 것이다.

차원 유클리드 공간에 매장된 N차원 단위 구는 다음과 같이 정의될 수 있다.

이 매장은 구에 계량을 유도하며 주변 공간의 유클리드 계량에서 직접 물려받는다. 좌표가 구 표면에 있도록 제한되도록 주의하면서 위와 정확히 동일한 형식을 취한다. 이는 예를 들어 라그랑주 승수를 사용하여 수행할 수 있다.

이제 변수 변환 을 고려하자. 구형 조건은 이제 확률 정규화 조건이 된다.

계량은 다음과 같이 된다.

마지막은 피셔 정보 계량의 4분의 1로 인식될 수 있다. 프로세스를 완료하려면 확률이 다양체 변수 의 매개변수 함수라는 점을 기억하라. 즉, . 따라서 위의 내용은 매개변수 다양체에 대한 계량을 유도한다.

또는 좌표 형식에서 피셔 정보 계량은 다음과 같다.

이전과 마찬가지로

이 표현이 좌표에 적용 가능함을 상기시키기 위해 위 첨자 '피셔'가 표시된다. 비좌표 형식은 유클리드(평면 공간) 계량과 동일하다. 즉, 통계적 다양체에 대한 피셔 정보 계량은 변수를 적절하게 변경한 후 구의 양의 오르탄트로 제한된 유클리드 계량(4배)이다.

확률변수 는 이산적이지 않고 연속적일 때, 이 논의는 여전히 유효하다. 이는 두 가지 방법 중 하나로 볼 수 있다. 한 가지 방법은 모든 조작이 잘 정의되고 수렴되는지 확인하기 위해 무한 차원 공간에서 위의 모든 단계를 신중하게 재구성하고 한계를 적절하게 정의하는 등의 작업을 수행하는 것이다. 다른 방법은 다음과 같다. 그로모프가 지적한 바에 따르면, 범주론적 접근 방식을 사용하는 것이다. 즉, 위의 조작은 확률 범주에서 여전히 유효하다는 점에 유의하라. 여기서 이러한 범주는 라돈-니코딤 성질을 갖게 된다. 즉, 라돈-니코딤 정리가 이 범주에 적용된다. 여기에는 힐베르트 공간이 포함된다. 이는 제곱 적분 가능하며 위의 조작에서는 제곱에 대한 합을 제곱에 대한 적분으로 안전하게 대체하는 데 충분하다.

푸비니–슈투디 계량

유클리드 계량에서 피셔 계량을 유도하는 위의 조작은 복소 사영 힐베르트 공간으로 확장될 수 있다. 이 경우 푸비니-슈투디 계량을 얻는다.[7] 푸비니-슈투디 계량이 양자 역학에서 정보를 측정하는 수단을 제공하므로 이는 놀라운 일이 아니다. 헬스트롬 계량이라고도 알려진 뷰래스 계량은 푸비니-슈투디 계량과 동일하지만[7] 후자는 일반적으로 아래와 같이 순수 상태로 작성되는 반면 Bures 계량은 혼합 상태로 작성된다. 복소 좌표의 페이즈를 0으로 설정하면 위와 같이 피셔 정보 계량의 정확히 1/4을 얻을 수 있다.

하나는 극좌표로 작성된 확률 진폭을 구성하는 동일한 트릭으로 시작한다.

여기서, 는 복소수 확률 진폭이다. 는 실수이다. 이전 계산은 을 설정하여 얻는다. 확률이 단체내에 있는 일반적인 조건은 다음과 같다.

제곱 진폭이 정규화된다는 아이디어로 동등하게 표현된다.

이 실수일 때 이것은 구의 표면이다.

양자 역학 브라켓 표기법을 사용하여 극소 형태로 작성된 푸비니-슈투디 계량은 다음과 같다.

이 표기법에서는 이고 전체 측도 공간 X 에 대한 적분은 다음과 같이 작성된다.

표현식 는 아주 작은 변화로 이해될 수 있다. 동등하게, 여접공간에서는 1-형식으로 이해될 수 있다. 무한소 표기법을 사용하면 위 확률의 극좌표 형식은 다음과 같다.

위의 내용을 푸비니–슈투디 계량에 대입하면 다음이 제공된다.

라 두면 위에서 첫 번째 항은 피셔 정보 계량의 1/4이라는 점을 분명히 알 수 있다. 위의 전체 형식은 표준 리만 기하학의 표기법을 변경하여 약간 더 명확하게 만들 수 있으므로 계량은 접공간에 작용하는 대칭 2 형식이 된다. 표기 변경은 로 간단히 교체만 하면 된다. 적분은 단지 기대값일 뿐이라는 점에 유의하라. 그래서:

허수 항은 심플렉틱 형식이며 베리 페이즈 또는 기하학적 페이즈이다. 첨자 표기법에서 계량은 다음과 같다.

다시 말하지만, 첫 번째 항은 로 놓으면 피셔 정보 계량의 4분의 1로 명확하게 표시될 수 있다. 동등하게, 푸비니-슈투디 계량은 평면 유클리드 계량의 복소 확장에 의해 유도된 복소 사영 힐베르트 공간의 계량으로 이해될 수 있다. 이것과 Bures 계량의 차이점은 Bures 계량이 혼합 상태로 작성된다는 것이다.

연속값 확률

다음과 같이 좀 더 형식적이고 추상적인 정의를 내릴 수 있다.[8]

X를 유향 다양체라고 하고, X에 대한 측도라 하자. 마찬가지로 , 시그마 대수 그리고 확률 확률 공간이라 하자.

X의 통계적 다양체 S (X)는 X에서 모든 측도 의 공간으로 정의된다.(시그마 대수 이 고정됨) 이 공간은 무한차원 공간이며 일반적으로 프레셰 공간으로 여겨진다. S (X)의 점은 측도이다.

를 고르고 접공간 를 고려하자. 피셔 정보 계량은 접공간의 내적이다. 표기법을 남용 하면 다음과 같이 쓸 수 있다.

여기서, 는 접공간의 벡터이다. 즉, . 표기법의 남용은 접벡터를 도함수인 것처럼 작성하고 적분을 작성할 때 외부 d를 삽입하는 것이다. 적분은 전체 공간 X에 걸쳐 측도 를 사용하여 수행되어야 한다. 실제로 이러한 표기법의 남용은 측도론에서는 완벽하게 정상적인 것으로 여겨진다. 이는 라돈-니코딤 미분에 대한 표준 표기법이다.

적분이 잘 정의되기 위해서는 공간 S(X)가 Radon-Nikodym 성질을 가져야 하며, 보다 구체적으로 접공간은 제곱 적분 가능한 벡터로 제한된다. 제곱 적분성은 코시 수열약위상에서 유한 값으로 수렴한다고 말하는 것과 동일하다. 공간에는 극한값이 포함되어 있다. 힐베르트 공간은 이 속성을 가지고 있음에 주목하라.

이러한 계량의 정의는 여러 단계에서 이전 정의와 동일하다고 볼 수 있다. 먼저, 매끄럽게 변하는 매개변수 에 의해 매개변수화되는 측도 만 고려하여 S (X)의 부분 다양체를 선택한다. 그렇다면 만약 가 유한차원이라면 부분다양체도 마찬가지이다. 마찬가지로 접공간은 과 같은 차원을 갖는다.

추가적인 언어 남용과 함께 지수 사상은 접공간의 벡터에서 기저 다양체의 점까지 사상을 제공한다는 점에 주목한다. 따라서 만약 는 접공간의 벡터이면 와 관련된 해당 확률이다. (지수 사상을 평생운송한 후.) 반대로, 주어진 점이 , 로그는 접공간에 점을 제공한다(대략적으로 말하면 원점에서 점 으로 이동해야 함). 따라서 이전에 주어진 더 간단한 정의에서는 로그 모양을 갖는다.

같이 보기

각주

  1. Nielsen, Frank (2023). “A Simple Approximation Method for the Fisher–Rao Distance between Multivariate Normal Distributions”. 《Entropy》 25 (4): 654. arXiv:2302.08175. Bibcode:2023Entrp..25..654N. doi:10.3390/e25040654. PMC 10137715 |pmc= 값 확인 필요 (도움말). PMID 37190442. 
  2. Amari, Shun-ichi; Nagaoka, Horishi (2000). 〈Chentsov's theorem and some historical remarks〉. 《Methods of Information Geometry》. New York: Oxford University Press. 37–40쪽. ISBN 0-8218-0531-2. 
  3. Dowty, James G. (2018). “Chentsov's theorem for exponential families”. 《Information Geometry》 1 (1): 117–135. arXiv:1701.08895. doi:10.1007/s41884-018-0006-4. 
  4. Cover, Thomas M.; Thomas, Joy A. (2006). 《Elements of Information Theory》 2판. Hoboken: John Wiley & Sons. ISBN 0-471-24195-4. 
  5. Brody, Dorje; Hook, Daniel (2008). “Information geometry in vapour-liquid equilibrium”. 《Journal of Physics A》 42 (2): 023001. arXiv:0809.1166. doi:10.1088/1751-8113/42/2/023001. 
  6. Crooks, Gavin E. (2009). “Measuring thermodynamic length”. 《Physical Review Letters》 99 (10): 100602. arXiv:0706.0559. doi:10.1103/PhysRevLett.99.100602. PMID 17930381. 
  7. Facchi, Paolo; 외. (2010). “Classical and Quantum Fisher Information in the Geometrical Formulation of Quantum Mechanics”. 《Physics Letters A》 374 (48): 4801–4803. arXiv:1009.5219. Bibcode:2010PhLA..374.4801F. doi:10.1016/j.physleta.2010.10.005. 
  8. Itoh, Mitsuhiro; Shishido, Yuichi (2008). “Fisher information metric and Poisson kernels” (PDF). 《Differential Geometry and Its Applications》 26 (4): 347–356. doi:10.1016/j.difgeo.2007.11.027. 

참고자료

  • Feng, Edward H.; Crooks, Gavin E. (2009). “Far-from-equilibrium measurements of thermodynamic length”. 《Physical Review E》 79 (1 Pt 1): 012104. arXiv:0807.0621. Bibcode:2009PhRvE..79a2104F. doi:10.1103/PhysRevE.79.012104. PMID 19257090. 
  • Shun'ichi Amari (1985) Differential-geometrical methods in statistics, Lecture Notes in Statistics, Springer-Verlag, Berlin.
  • Shun'ichi Amari, Hiroshi Nagaoka (2000) Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society.
  • Paolo Gibilisco, Eva Riccomagno, Maria Piera Rogantin and Henry P. Wynn, (2009) Algebraic and Geometric Methods in Statistics, Cambridge U. Press, Cambridge.