• Hyunseok Hwang

인공지능에 '과학'을 알려줍시다!

지난 블로그 포스팅[링크]을 통하여 우리가 해결하고자 하는 문제의 데이터가 적은 환경에서 다른 유사한 Task들로부터 적절한 Prior knowledge를 추출하여 효율적으로 인공지능을 학습 시키는 방법을 살펴보았습니다. 이번 포스팅에서는 이와는 조금 다른 관점에서 인공지능이 마주하는 Data scarcity 문제를 극복하는 방법에 대해서 이야기 해보고자 합니다.

오랜 시간 동안 사람들은 자연에서 나타나는 물리 현상에 대해 많은 연구를 했고, 그 현상을 수학적으로 모델링하여 Governing equation으로 표현하였습니다. 이처럼 해당 도메인 전문가가 이미 알고 있는 법칙들을 인공 신경망에 Inductive bias로 줄 수 있다면 순수 데이터로만 학습한 인공지능 모델이 보일 수 있는 Unphysical behavior 또는 Extrapolation에서의 성능 저하 문제 등을 해결하는데 많은 도움을 줄 수 있을 것 입니다.


Physics-Informed Neural Network(PINN)

첫 번째로 리뷰 할 논문([1]), 'Physics-Informed Neural Network'를 살펴보겠습니다. 논문 제목대로 물리 법칙을 인공 신경망에 접목하는 아이디어는 굉장히 단순하면서도 강력한 성능을 보여줍니다.

우리가 풀어야 할 굉장히 복잡한 물리 법칙을 가정해봅시다. 계산 과학(Computational Science) 분야에서 기본으로 검증하는 편미분 방정식인 Burger’s equation을 간단히 살펴보겠습니다.


1D Burger’s equation



Burger’s equation은 유체역학 분야에서 관심을 가지는 방정식

으로, 해석적으로 풀기에 다소 까다로운 부분이 있습니다. 위 그림의 왼쪽을 보시면 초기 시간의 유체의 모습이 시간의 흐름에 따라 어떻게 변하는지 감을 익힐 수 있는데 t2의 시간을 보면 유체의 파형이 함수로는 정의 내릴 수 없는 모양으로 변하는 신기한 방정식입니다. t2처럼 특이한 부분이 나오는 지점은 충격파('shock')라고 하며 계산 과학 분야에서는 그림의 오른쪽처럼 충격파를 컴퓨터가 잘 해결 할 수 있도록 복잡한 방식들을 많이 사용합니다. 덧붙이자면, Burger’s equation에서 t2의 파형은 실제 함수가 아니기 때문에 최대한 실제 파형에 가까운 함수를 모델링 하는 것을 목표로 합니다.


유한 차분법, 유한 체적법이라는 큰 방식 하에 계산을 수행할 노드를 Burger’s equation에 맞게 식을 설계하는 기타 다양한 전략 방식을 통하여 Burger’s equation의 충격파 문제를 해결하는데 참으로 많은 연구와 수학적인 개념의 함의가 있습니다. 그렇다면 계산을 올바르게 하기 위한 연구와 수학의 개념을 인공 신경망에 어떻게 입력 시키는지 그 방식을 보시면 의외로 굉장히 간단합니다. 그래서 필자는 논문을 처음 보았을 당시 의외의 단순함에 놀라움을 금치 못하였습니다.


PINN 목적함수



문헌에서 PINN 목적함수 입니다. 인공 신경망 형태는 복잡할 것 없이 회귀 분석 문제를 푸는 전략처럼 단순한 완전 연결계층(Fully-connected layer)으로 구성됩니다. 최종 목적 함수는 두 개의 항으로 이루어져 있는데 첫 번째 항(MSE_u)은 단순하게 데이터와 추론 값의 차이를 줄이는 흔히 생각 가능한 MSE함수입니다. 두 번째 항(MSE_f)은 이제 우리가 풀고자 하는 편 미분 방정식 정보를 그대로 입력 시키는 것입니다. 우리가 인공지능을 배웠을 때 학습 데이터 셋을 과도하게 학습을 방지하기 위한 기법으로 regularization을 적용하는 항 대신에 편미분 방정식의 오차를 줄이라는 목적을 그대로 입력하는 것입니다! 여기서는 Burger’s equation을 그대로 적용시키면 되겠습니다.


PINN으로 해결한 Burger’s equation


그림의 위쪽을 보면 x좌표와 시간축에 따르는 파동의 크기가 색상으로 표현되어 그려져 있습니다. 이는 해당 방정식의 올바른 해가 되며, 단순한 인공신경망으로 해를 구하기 위해 아마도 거의 모든 (x,t)에 해당하는 파의 데이터가 필요 할 것으로 예상됩니다. 하지만 그림에서 x표시를 해둔 부분만 데이터를 사용하였고 무수히 많은 (x,t)의 조합을 이용하지 않고도 100개의 초기값 및 경계값 데이터로만 학습에 사용했습니다. 거기에 덧붙인 것은 목적함수의 regularization 부분에 해당하는 부분이 Burger’s equation이라는 정보일 뿐입니다. 아래 그림들은 다양한 시간에서 파의 모습들에 대한 결과입니다. 분명 위의 그림에서는 데이터 포인트가 없었던 지점에서도 육안으로 보았을때 해당 편미분 방정식을 상당히 정확하게 계산해내고 있음을 볼 수 있습니다. 문헌에서는 상대 L-2 오차가 6.7e-04이라는 수치를 보고했습니다.

Hamiltonian Neural Networks

두 번째로 리뷰 할 논문([2])은 해밀토니안 역학을 인공지능에 접목하는 아이디어를 이야기 하고 있습니다.

운동에너지, 위치에너지 총량의 합이 동일하고, 그 총량으로부터 각각의 미분 값이 나머지 에너지에서 시간에 대한 변화량에 같다는 물리 법칙을 인공지능에 이식합니다. 개념도는 아래와 같습니다.


해밀토니안 인공 신경망 개념도


위 그림은 용수철에 매달린 물체의 운동계를 모사하는 인공 신경망의 문제 풀이 방식입니다. 가운데 열의 두 그림 중 위쪽에선 일반 좌표(q), 일반 운동량(p)를 입력하면 그에 따른 시간의 변화량을 추정하며 아래쪽에선 해밀토니안 값을 추론하게 됩니다. 인공 신경망이 추론하는 결과를 단순히 우리가 눈으로 보이는 현상에 대해서 출력하도록 디자인 하는 것이 아니라, 사람이 오래전부터 학습하고 배워왔던 지식인 ‘해밀토니안’이라는 에너지 총량을 출력하도록 디자인 하여 원하는 결과를 얻을 수 있게 됩니다. 그림의 오른쪽을 보면 초기 입력데이터에 잡음이 섞여있다 하더라도 출력 단계에서 해밀토니안 인공 신경망의 결과는 이론적으로 운동에너지-위치에너지의 총량이 시간이 지남에도 불구하고 온전하게 보존되는 결과를 추론 할 수 있음을 보여줍니다.


해밀토니안 인공 신경망 학습 방식



해밀토니안 인공 신경망은 학습을 위해 PINN과는 달리 입력 데이터가 일반 좌표(q)와 운동량(p)이라는 다량의 시계열 속성에 대해서 데이터를 많이 가지고 있어야 합니다. 그러나 ‘해밀토니안’이라는 고전역학.양자역학을 넘나드는 공통 속성을 가진 물리량을 이용하기 때문에, 새로운 물리 현상의 문제 상황을 마주 할 때 마다 모델이나 목적 함수를 수정할 필요 없이 좋은 성능을 기대 할 수 있는 매우 영향력 있는 알고리즘 입니다. 예를 들면, 운동 방정식 문제를 해결한 인공지능이 가진 해밀토니안을 이용해 파동 방정식 문제를 해결하는 사례가 있겠습니다.

지금까지 언급한 방식을 응용해 실제 물체의 균열이 가해지는 순간과 그 특성을 연구하는 Phase-field modeling of fracture([3],[4])과 복잡한 유체역학 문제 풀이([5])에 대한 연구가 이루어 지고 있습니다. 인공 신경망을 통해 그동안 사람들이 해결하기 어려웠던 문제를 색다른 방식을 통해 해결하는 방법에 대해 많이 고찰을 하게 됩니다. 비록 인공 신경망이 해를 찾는 구조가 Black-box 방식이라 완벽하게 설명이 불가능하다는 점에서 현재까지 산업, 학문 분야에서 주류로의 자리를 차지하는 입장은 안되지만, 데이터가 부족하더라도 괜찮은 성능을 내는 부분, 구현하기 상대적으로 간단하다는 장점, 그리고 사람들이 그동안 자연 과학. 공학에 대한 연구를 한 성과들을 쉽게 접목했다는 장점들을 내세웠을 때 실제로 마주하게 될 문제에서 위에서 리뷰 한 두 논문들은 아주 유용하게 쓰일 좋은 도구들이라고 생각합니다.

저희 알세미도 이런 측면으로 해당 연구들을 의미 있게 바라보고 있습니다. 실제 현업에서 측정된 데이터로만 반도체의 특성을 모델링 하는 과정에서 겪게 되는 Data scarcity 또는 Unphysical behavior 등을 해결하기 위해 수십년 동안 반도체 모델링 분야를 연구하며 축적 되어 온 Human Expertise를 인공 신경망에 잘 스며들 수 있게 설계할 수 있다면 반도체 모델링 이외에도 더 많은 Scientific simulation 분야에 적용할 수 있는 기술이 개발될 수 있을 것으로 기대하고 있습니다.

참고문헌

그림출처

Recent Posts

See All

반도체 산업의 발전 자율 주행 자동차, 빅데이터, 그리고 사물 인터넷과 같이 수많은 반도체 제품을 필요로 하는 시장의 수요를 충족시키기 위해, 반도체 제품을 구성하는 트랜지스터는 그림 1과 같이 나노 단위의 작은 크기 그리고 더 높은 성능을 가지는 구조로 발전해 왔습니다. 그 결과, 동일한 면적의 웨이퍼 위에 수 십, 혹은 수 백 억 개에 달하는 트랜지스

현재 미국 전기차 업체 테슬라는 상당한 수준의 자율주행 능력을 보여주는데 그 배경에는 Multitask-learning의 개념이 뒷받침 되어있습니다. 자율주행 자동차는 부착된 카메라를 통해 받아오는 실시간 도로 상황의 이미지를 이용해 사물분류, 차선감지, 표지판 탐색, 그리고 도로 마크인식 등등 여러 문제를 동시에 풀어야 합니다. (Andrej Kapath

지난 십수년 동안, AI 모델은 거대한 양의 데이터로 보다 정확하고 정밀하게 주어진 임무를 수행하는 방향으로 발달해 왔습니다. 지난 수차례 이 블로그에서도 언급된 바와 같이, 빅 데이터로부터 학습된 neural network는 학습 데이터 뿐 아니라 unseen 영역에서도 뛰어난 성능을 보임이 밝혀져 (generalisation) 이에 대한 연구가 활발히