• Yesle Cha

AI 와 수식 모델 간의 숨바꼭질 : Symbolic Regression

지난 십수년 동안, AI 모델은 거대한 양의 데이터로 보다 정확하고 정밀하게 주어진 임무를 수행하는 방향으로 발달해 왔습니다. 지난 수차례 이 블로그에서도 언급된 바와 같이, 빅 데이터로부터 학습된 neural network는 학습 데이터 뿐 아니라 unseen 영역에서도 뛰어난 성능을 보임이 밝혀져 (generalisation) 이에 대한 연구가 활발히 이루어지고 있고, 설령 적은 데이터만이 주어졌다 할지라도, 비슷한 임무 (task)를 많이 학습해보게 함으로서 적은 데이터 만으로도 뛰어난 성능을 보일 수 있음 또한 보인 바 있습니다 (meta-learning). 특정한 물리 법칙을 따르는 데이터가 학습에 쓰였다고 가정한다면, 사실상 AI 모델이 데이터만으로도 이 데이터가 따르는 물리 법칙을 ‘발견’ 혹은 ‘학습’ 해 내었고, 따라서 학습되지 않은 영역에서도 뛰어난 예측을 하고 있다고도 해석해 봄 직 합니다. 그런데 정말로 AI 모델은, 데이터만으로 이 물리 법칙을 ‘발견’ 해 내고 수식으로 표현해 낼 수 있을까요? 이 수식은 또한 얼마나 신뢰할 수 있는 것일까요?


  • Symbolic Regression 이란?

특정 데이터가 주어졌을 때, 데이터가 따르는 규칙을 수식으로 정확하게 표현해내고자 하는 연구 기법을 “Symbolic Regression” 이라고 합니다. 이는 오랫동안 자연과학자들이 해왔던 일이지만, 최근에는 AI기법을 도입하여 복잡한 데이터에서도 governing equation 을 찾으려는 시도가 각광받고 있는데요, symbolic regression 으로 수많은 데이터의 특질을 수식으로 압축하여 나타낼 수 있다면, unseen 영역에서 데이터의 양상을 쉽게 예측할 수 있게 됨은 물론이고, 단순히 데이터를 neural network로 학습했을 때에 비해 모델이 왜 이러한 예측을 해 내는지 훨씬 설명하기 쉬워진다는 장점이 있습니다. 아래에 서술할 것이지만, 이를 통해 데이터가 가지는 어떤 물리적인 특성을 도출해 내고, 왜 데이터가 이런 수식을 따르는지 연구하여, 자연 과학 연구에 기여할 수 있는 잠재력을 가지고 있기도 합니다.

사실 “Symbolic Regression”는 저희 알세미 AI 팀이 하고 있는 연구에 직접적인 관계를 갖고 있습니다. 현재까지 반도체 소자 모델링은, 전압 변화에 따른 소자에 흐르는 전류의 변화 특성을 물리 법칙에 기반한 수식으로 표현하는 compact model을 이용하여 이루어지고 있는데, 소자 크기가 작아지고 전류 특성이 복잡해질수록 이 소자 특성을 정확하게 설명할수 있는 compact model 개발도 매우 어려워집니다. 저희 알세미 AI 팀에서는, 이 compact model 을 AI 모델로 대체할 수 있는 다양한 기법을 연구하고 있습니다. 만약 symbolic regression 의 성능이 매우 높아서, 말 그대로 반도체 소자 데이터의 특성을 수식으로 정확하게 나타낼 수 있다면, 이 모델이야말로 compact model 을 대체할 수 있는 대안이 될 수도 있습니다.

따라서 이번 블로그 글에서는, AI symbolic regression 에 대한 최신 논문들을 ([1-3])을 간단하게나마 리뷰하여, AI기법을 이용하여 어떤 방식으로 데이터 기저의 수식 모델을 발견하게 되는지에 대해 다뤄보고, 이를 이용한 물리 연구 또한 살펴보고자 합니다.


  • AI 를 이용한 Symbolic Regression : AI Feynman

여러분에게 수많은 데이터가 주어졌습니다. 이 데이터는 공통된 규칙 (수식) 을 따른다고 가정 합니다. 데이터를 어떻게 모으고 분석하여야 가장 효율적인 방식으로 이 수식을 찾아낼 수 있을까요? 물론 세상에 존재하는 모든 함수에 데이터를 대응시켜보고자 노력할 수 있지만, 당연히 이러한 방식으로는 논문 ([1]) 의 표현에 따르자면 ‘우주의 나이’가 다 지나가도록 정답을 못 맞출 수도 있습니다. 일단 논문 ([1]) 에서는, 데이터가 물리 법칙을 따른다고 가정 하고 있으므로, 이 물리 법칙에 흔히 등장하는 함수들 (exp, log, cos, arctan etc) 과 이들의 합, 곱, 합성 등의 조합으로 search space 를 구성하였습니다. 그럼에도 불구하고, 이들의 조합은 무한하기 때문에 이를 전부 다 조합하여 데이터와 대조해보는 것은 비효율적인 방식입니다. 따라서 함수들의 조합을 보다 효율적으로 찾기 위해 neural network를 학습하여 수식이 갖고 있는 특정한 성질을 찾아 찾아야 하는 조합의 수를 획기적으로 줄여보고자 한 것이, 이 논문의 대표적인 아이디어 입니다.

AI Feynman Algorithm [1]

위 도식은 데이터로부터 수식을 찾는 알고리즘[1] 을 보여주고 있습니다. 이 데이터는 물리 법칙을 따른다고 가정하고 있으므로, 각각의 input/output 데이터가 특정 단위를 갖고 있을 것입니다. 첫 단계 “Dimensional Analysis” 에서는, input 간의 단위를 적절하게 맞추어서 output 단위와 같은 단위를 갖는 input 의 조합을 발견한 후, 이와 나머지를 분리해 냅니다. 이 나머지 부분은 단위가 없습니다. 그리고 각각을 polynomial 로 맞춰 보거나, 혹은 위에서 서술한 search space 에서 가능한 여러 조합으로 특정 시간동안 맞춰보는 ‘Brute Force’ 단계를 한번 거쳐봅니다. 이 두 단계가 모두 실패한다면, 수식이 아마도 매우 복잡하다는 뜻일 수 있습니다. 수식이 가지고 있을 법한 특성, 즉 일정 상수만큼 input을 이동해도 결과가 같다는 등의 symmetry, 혹은 수식이 어떤 두 복잡한 수식의 곱이나 합으로 표현될 수 있다는 등의 separability 등을 최대한 발견하여 가능한 함수의 조합의 수를 줄여주는 것이 필요합니다. 바로 이 단계에서 neural network를 이용하게 됩니다. 주어진 데이터 만으로는 이러한 특성을 쉽게 발견하기 어려울 수 있기 때문에, neural network를 학습하여 이 모델의 예측값으로 수식을 맞춰보도록 하는 것이 이 논문의 핵심입니다. 이러한 단계를 거쳐 만유인력 수식을 예측해 본 예가 아래와 같습니다. 만유인력 수식을 따르는 데이터가 주어졌을 때, 말씀드린 단계를 거쳐 수식이 점점 맞추기 쉬운 형태로 변화하는 것을 쉽게 볼 수 있습니다.

AI Feynman Algorithm 적용 예 [1]

논문 [1] 에서는 이 알고리즘을 활용하여 대표적인 물리 수식 120개를 정확하게 맞췄다고 보고하고 있습니다. 후에 이를 바탕으로 좀 더 noise가 심한 데이터에서도 정확한 수식을 발견하는 동시에, 이 120개보다 더 어려운 수식도 맞출 수 있는 방식을 개발한 후속 논문 [2] 도 발표된 바 있습니다.


  • AI로 추출한 미확인 수식, 그 효용성은?

그렇다면 이러한 인공지능 기법을 응용하여, 이미 알려진 수식을 데이터로부터 추출해 내는 것에서 더 나아가, 아직 정확한 수식이 알려지지 않은, 혹은 합의되지 않은 물리적 현상을 데이터만 보고 수식으로 기술하여 자연 과학 연구에 직접적인 영향을 미칠 수 있을까요?

이러한 질문에서 출발한 연구 결과가 논문 [3] 에 실려 있습니다. 이 논문에서는, 일단 graph neural network 를 활용하여 입자들의 상호작용을 배우도록 하고, 이후 이에 영향을 미치는 물리 법칙을 symbolic regression 을 통해 추출하여 그 정확도를 확인한 바 있습니다. 해당 논문이 더욱 이목을 끄는 것은, 확인되지 않은 물리 법칙도 데이터로부터 추출하여 그 의미를 분석하고자 했다는 데에 있습니다. 우주론 (cosmology) 에서는 아직 미지의 영역인 암흑 물질(dark matter)에 관한 연구가 활발하게 이루어지고 있는데, 이 암흑 물질은 뭉쳐서 헤일로를 이루고, 이 헤일로는 바리온 입자를 끌어 당겨 별 등의 천체를 생성한다고 보고 있습니다. 논문에서는 암흑 물질 헤일로와 그 주변 암흑 물질 헤일로의 물리적 특성 (질량, 위치, 속도 등) 으로부터 이 암흑 물질 헤일로의 물질량, 정확하게는 주변 물질과 비교한 초과 물질량의 비율을 추측해 내 이를 수식으로 표현하는 연구를 진행했습니다. 놀라운 점은, 인공지능 기법을 사용하여 추출한 물질량 수식의 정확도가, 과학자들이 예견한 수식보다 더 높다는 점입니다. 이는 아래 도표에서 확인할 수 있습니다.

위 도표의 두번째 줄 수식이 과학자들이 예견한 수식이며, 세 번째와 네 번째가 각각 암흑물질 헤일로들의 질량을 포함하지 않거나, 포함하여 symbolic regression 기법으로 추출한 수식입니다. 특히 네번째 수식에서 에러가 0.0882 수준으로 매우 낮음을 볼 수 있습니다. 또한 저자들은 과학자들이 예견한 수식 과는 다른 두 수식의 물리적 의미를 해석해보려는 시도를 하고 있습니다. 인공지능 기법이, 실제로 높은 정확도로 물리적 특성을 반영하는 (여태까지 알려지지 않은) 수식을 추출해 낼 수 있으며, 이것이 맞는지, 혹은 어떤 의미를 가지는지 등을 분석함으로서 역으로 암흑 물질 헤일로 연구에 영향을 미칠 수 있음을 이로서 보인 것입니다.


저희 알세미 AI 팀에서는 새로운 반도체 소자의 특성을 인공지능 기법을 활용하여 예측해내고, 더 나아가 위 연구와 같이 새로운 반도체 소자가 어떠한 새로운 물리적 특성을 갖게 되는지 해석해내는 것까지를 목표로 삼고 있습니다. 지금까지 말씀드린 논문 [3]은, 저명한 이론 물리학자 Eugene Wigner박사의 저서를 참조하는 것으로 시작합니다. 물리 법칙이 수학적 언어로 적절하게 표현될 수 있는 ‘기적’은, 우리가 받을 만한 자격이 있는것도 아니고, 이해할 수도 없는 그야말로 선물이며, 이에 감사해야 한다는 내용입니다. 저희 또한 이 기적에 빚져 연구의 기반을 마련했으므로, 논문에도 실린 원문을 나눔으로서 이번 블로그 글을 맺고자 합니다.


“The miracle of the appropriateness of the language of mathematics for the formulation of the laws of physics is a wonderful gift which we neither understand nor deserve. We should be grateful for it and hope that it will remain valid in future research and that it will extend, for better or for worse, to our pleasure, even though perhaps also to our bafflement, to wide branches of learning."—Eugene Wigner [4][3].

 

[1] AI Feynman: A physics-inspired method for symbolic regression, S. Udrescu et al., Science Advances, 6(16), 2020.

[2] AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity, S. Udrescu et al., NIPS 2020.

[3] Discovering Symbolic Models from Deep Learning with Inductive Biases, M. Cranmer et al., NIPS 2020.

[4] The unreasonable effectiveness of mathematics in the natural sciences, Eugene P. Wigner, Communications on Pure and Applied Mathematics, 13(1):1–14, 1960.


Recent Posts

See All

반도체 산업의 발전 자율 주행 자동차, 빅데이터, 그리고 사물 인터넷과 같이 수많은 반도체 제품을 필요로 하는 시장의 수요를 충족시키기 위해, 반도체 제품을 구성하는 트랜지스터는 그림 1과 같이 나노 단위의 작은 크기 그리고 더 높은 성능을 가지는 구조로 발전해 왔습니다. 그 결과, 동일한 면적의 웨이퍼 위에 수 십, 혹은 수 백 억 개에 달하는 트랜지스

현재 미국 전기차 업체 테슬라는 상당한 수준의 자율주행 능력을 보여주는데 그 배경에는 Multitask-learning의 개념이 뒷받침 되어있습니다. 자율주행 자동차는 부착된 카메라를 통해 받아오는 실시간 도로 상황의 이미지를 이용해 사물분류, 차선감지, 표지판 탐색, 그리고 도로 마크인식 등등 여러 문제를 동시에 풀어야 합니다. (Andrej Kapath

AI는 많은 분야에서 전통적인 알고리즘 보다 월등한 성능을 보여주고 있습니다. 성능이 더 좋아졌다면 바로 현실에 도입할 수 있을까요? 그 판단은 AI를 적용하려는 분야에 따라 달라질 것 같습니다. 스마트폰 음성 인식이나, 넷플릭스 영화 추천 등에서는 기존 95% 정확도가 97%로 올라갔다면 사용하지 않을 이유가 없을 것 입니다. 하지만 의료 영상 분석, 자