ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 리뷰 : Darwin's Doubt (Stephen C. Meyer) part 4
    Books 2014. 12. 4. 03:50

    유전정보 생성의 문제

     

    신다윈주의의 종합은 20세기 초반에 등장한 population genetics의 수학적 모델을 기반으로 한 다윈주의 이론과 멘델리안 유전학을 기초로 이루어졌다. 하지만 이 당시만 해도 그 유전되는 물질이 존재하고 그에 변이가 생긴다는 것만 알았지 그 실체에 대해서는 알지 못하던 시절이었다. 1953년 왓슨과 크릭이 DNA 이중 나선 구조를 밝혀낸 후 크릭은 시퀀스 가설 (sequence hypothesis)을 제시하게 된다. A, T, G, C 가 어떤 순서로 배열되는지에 따른 시퀀스, 즉 유전 ‘정보’가 생명현상의 비밀이라는 것이 밝혀지게 된 것이다.

    신다윈주의에 의하면 이 유전정보에 작용하는 돌연변이와 자연선택이 진화의 동력이어야 했고, 진화에 따라 증가한 유전정보를 설명할 수 있어야 했다. ‘과연 캄브리아기에 등장한 생명체들에 필요한 유전정보의 증가를 설명할 수 있을까?’가 질문의 핵심이다.

    지구가 생긴 이래 약 30억년 동안엔 존재하는 생명이라곤 박테리아와 같은 단세포 생물들 뿐이었다. 후기 에디아카라기 (late Ediacaran period, 약 5억 5천5백만년 전에서 5억 7천만년전)에 최초의 다세포 동물이 출현하기 시작하며 이들에게는 약 10종류의 세포들이 필요할 것으로 보인다. 그후 약 4천만년 이 후 갑작스런 캄브리아 대폭발이 시작되고 이때 등장한 생명체에는 약 50종류 이상의 세포 종류가 필요한 보다 복잡한 형태의 동물들이 대거 출현하게 된다. 과연 새로운 종류의 세포들에 필요한 유전 정보는 어떻게 생성될 수 있는가?

     

    먼저 정보 (information)를 어떻게 정의하는지 짚고 넘어가야 한다. 일반적인 정보 이론에서 사용하는 정보의 개념은 Shannon이 정의한 정보 개념을 사용한다. 설계론에서 이야기하는 정보는 Shannon의 정보 개념과 달리, 특정화(specified)된 정보를 의미한다. 간단한 예로 다음 두 문장을 비교해본다.

     

    We hold these truths to be self-evident

    Ntnyhiznslhtgeqkahgdsjnfplknejmsed

     

    위의 두 문장은 Shannon의 정보 개념으로는 동일한 정보량을 가지고 있다. 하지만 후자는 특정화되지 않은, 즉 기능적 배열(functional sequence)이 없는 정보이다. Shannon의 공동 연구자인 Warren Weaver는 수학적 의미에서 사용하는 Shannon의 정보 개념을 일반적인 개념과 혼동해서는 안된다고 이야기한 바 있다. 하지만 생물학에서 이야기하는 정보의 개념은 Shannon의 정보 개념이 아닌, 특정화된 정보의 개념으로 보아야 한다. 크릭은 시퀀스 가설을 제안했을때 ‘정보란 아미노산 혹은 핵산(nucleic acid)의 염기 서열의 특정 배열을 의미한다’고 한 바 있다. 결국 생물학에서 이야기하는 유전 정보는 특정화된 정보, 즉 기능적 정보를 의미한다.

     

    이러한 생물학에서 이야기하는 유전 정보가 어떻게 생겨날 수 있는가에 대한 논의 중 빼놓을 수 없는 학회는 1977년 미국 필라델피아 위스타 연구소에서 있었던 “Mathematical Challenges to the Neo-Darwinian Interpretation of Evoluion” 컨퍼런스다. 이 모임에서 Eden은 평균 사이즈의 단백질(250개 아미노산으로 이루어진 폴리 펩타이드, 생명체를 이루는 아미노산은 20 종류가 있음.)이 만들어지려면 20250 (=10325) 의 가능한 조합에서 생겨난다고 이야기한 바 있다. (10325 수의 개념에 대 이해를 돕자면, 은하계에 존재하는 원자의 개수는 1065개로 추정되며, 알려진 우주 공간에 존재하는 기본 입자의 수는 1080개로 추정됨) 

     

    당시엔 전체 가능한 조합의 폴리 펩타이드 단백질 중 얼마나 많은 수의 조합이 실제 기능적인 단백질이 될 수 있는지에 대한 정보가 전무했기 때문에 Eden은 비록 가능한 조합의 수가 너무 많긴 하지만 무작위적인 조합으로도 많은 기능하는 단백질을 만들어 낼 수 있을 것이라 낙관했다. 이후 학자들에 의해서 가능한 단백질 폴리 펩타이드 풀에서 기능적인 펩타이드 시퀀스의 경우의 수가 얼마나 될지에 대한 측정이 이루어졌는데 대표적인 예는 MIT대학의 분자생물학자인 Robert Sauer에 의한 것으로 약 1/1063 확률로 추정되었고, 정보 이론학자인 Hubert Yockey에 의하면 측정값은 1/1090 의 확률이라 밝힌 바 있다. 다시 말하면 약 100개의 개별적 아미노산이 무작위적으로 연결되어 기능하는 단백질이 되기 위한 확률은 1/1063 ~ 1/1090 정도가 된다는 뜻이다. 

    또 다른 고려해야할 문제는 단백질은 단순한 아미노산들의 긴 배열이 아니라 적절히 접힘 (folding)이 이루어져야하고, 그렇지 않은 단백질들은 안정적으로 존재할 수 조차 없다는 사실이다. Axe는 주어진 단백질 풀(pool)에서 얼마나 많은 아미노산의 조합들이 안정적인 단백질 접힘을 이루어낼 수 있는지를 실험적으로 테스트해보았는데 그의 2004년 논문에서 그럴 확률은 1/1077 인 것으로 측정되었다.

    많은 사람들이 다양한 단백질들의 출현을 설명하기 위해 유전자 중복 (gene duplication)을 이야기한다. 하지만 유전자 중복은 이미 기능하는 단백질이 존재해야만 가능한 방법이다. 우리는 어떻게 새로운 단백질이 생겨날 수 있는가를 다루고 있다는 것을 명심하자. 설령 어떤 단백질이 이미 존재했을 것을 가정하더라도 중복 그 자체로는 선택적 이득이 없기 때문에 원하는 기능적 단백질은 전체 단백질 풀에 묻혀버리는 문제 (overriding problem)에 직면하게 된다. 결국 무작위적 돌연변이는 무수히 많은 조합의 펩타이드 풀 내에서 안정적 구조의 접힘(folded)을 거친 단백질 (1/1077)과 기능적 단백질 (1/1063~1/1090)을 찾아야하는 어려움을 안게 된다. 

    이렇게 천문학적으로 작은 확률의 가능성임에도 불구하고 도킨스 등의 진화학자들은 이것이 충분히 가능하다고 장담한다. 그의 대표적 예는 세익스피어의 “Me thinks it is like a weasel”이라는 문장을 진화 알고리즘을 통해 만들어내는 것이 가능하다고 주장한다. 하지만 그의 알고리즘에는 “Me thinks it is like a weasel”이라는 문장이 도달 목표로 이미 주어져있는 셈이다. Axe는 비판하기를 이는 결국 도킨스의 ‘지성’이 작용한 알고리즘으로서 결국 유전 정보의 중요성을 역설하는 셈이 된다고 비판한다. 

    또 하나 고려해야할 것은 기능하는 단백질을 만들만큼 충분한 확률 자원(probabilistic resources)이 있었는가 하는 문제이다.

    38억년전 최초의 단세포 박테리아가 지구상에 등장했다고 추정되기에, 매우 관대한 예상치라해도 1040 개체수가 있었다고 가정하면 (가능한 확률 자원 고려) 이들 단세포 박테리아 개체들 가운데 안정적인 단 한개의 새로운 단백질이 생겨나기 위한 확률은 1/1037 밖에 되지 않는다 (1040 / 1077 = 1037). 동일한 문제를 캄브리아 대폭발로 연장해 보면 문제는 더욱 심각해진다. 새로운 동물의 형태를 만들기 위해 필요한 단백질은 한개가 아니라 최소한 이보다는 훨씬 많을 것이기 때문이다. 또한 캄브리아 대폭발은 천만년이라는 좁은 시간대에서 갑작스레 일어난 일이므로 이에 대한 충분한 확률 자원이 존재했을 것이라 기대하기 어려운 이유이기도 하다.

Designed by Tistory.