menu

SARNews No.42

SAR News No.42

///// Perspective/Retrospective ///// ソフトマテリアル分野の計算科学 (国研)産業技術総合研究所 青柳岳司 1. はじめに 医薬開発に対する計算科学の利用は長い歴史があり、定量的構造活性相関(QSAR)、ホモロジーモデリング、ドッキングスタディ、ケムインフォマティクス、バイオインフォマティクスというような様々な手法や、量子化学計算、分子力学(MM)/分子動力学(MD)計算などの理論計算などが広く用いられてきた。一方、材料設計の分野においても医薬のQSARに対応して、活性ではなく物性と構造との相関を解析するアプローチは定量的構造物性相関(QSPR)と呼ばれて、原子団寄与法などをはじめとして古くから用いられている。理論計算に関しても、化学反応解析、触媒設計などへの量子化学計算の適用は、医薬の分野における酵素反応解析などと同様に、様々な材料や反応系を対象に取り組まれてきた。本解説では、医薬分野と比較的近いソフトマテリアルを対象とした計算科学に関する取り組みを紹介する。筆者の限られた知識ではあるが、医薬分野におけるアプローチとの類似性や違いなどに関して焦点を当てられればと思う。 2. ソフトマテリアルの階層構造 ソフトマテリアルとは合成高分子、液晶、コロイド、生体膜、生体高分子などの柔らかい物質の総称である。プラスチックなど通常の感覚ではソフトとはいい難いものも、金属やセラミックスなどのハードマテリアルと対比してソフトマテリアルの範疇に含まれる。ソフトマテリアルは、柔らかいという特徴に加えて分子の集合体であることがハードマテリアルとの違いとして挙げられる。そして通常ソフトマテリアルにおいては、生体膜、ミセルなどに観察されるように多数の分子が自己組織化して、より高次の構造が形成される。また合成高分子などにおいては分子構造自体に多様な分布が存在するのが常である。タンパク質の場合、個々のタンパク質においてアミノ酸配列はおおよそ固定されており、分子量も均一である。それに応じて3次元構造も、変性したような場合でない限りおおよそ一義的に決まる。しかし、合成高分子の場合、例えば同じポリエチレンと呼ばれる高分子材料においても(-CH2-CH2-)というモノマー構造が同じであるだけで、分子量が異なっていても同じポリエチレンと呼ばれる。さらに通常、分子量は均一ではなく、一つのポリエチレン材料の中にも様々な長さの分子が混ざった状態で分子量分布を持つ。さらに紛らわしいことに、モノマーが直線的に結合している直鎖分子だけではなく、分岐や架橋した構造を持つ場合もある。 単一のモノマーユニットからなる合成高分子でもこのような多様な構造が存在するのに加えて、コポリマーといわれる複数種のモノマーが共重合してできる高分子材料はさらに複雑である。合成高分子的な見方をすると、タンパク質は基本20種のアミノ酸、DNAは4種類の核酸からなるコポリマーということができ、例えばタンパク質であれば、その配列によって個々に区別されている。しかしながら、合成高分子の場合は同じモノマー種からなるコポリマーは基本ひとまとめにして扱われる。かろうじてモノマーユニットがランダムにつながっているランダムコポリマーか、同一のモノマーがある程度の長さのブロックを構成し、そのブロックがつながっているブロックコポリマーかという違いはあるが、シーケンスによって基本的に区別されない。そういう意味では生体高分子に比較して極めてアバウトな取り扱いである。 タンパク質にも一次構造から四次構造までの階層的な構造が存在するが、ソフトマテリアルにおいても分子構造の多様性に加えて、高次構造の多様性が存在する。“マテリアル”は通常分子集合体であり、非晶、液晶、結晶状態などが存在しうる。また合成高分子の結晶は単結晶であることはなく、通常、図1に模式図を示すように、複数の分子が集合した状態で結晶領域と非晶領域が混在している。 さらに図のように、同じ分子鎖でも一部は折りたたまって結晶を構成し、残りは非晶を構成するというような場合もあり、タンパク質でいうところの三次構造と四次構造の境が明確でない。 このようにソフトマテリアルには複雑な、あるいは逆の見方をすればアバウトに定義された階層構造が存在しているため、数値として明確に定義された構造情報の入力が求められる計算科学によるアプローチを複雑にしている。 3. ソフトマテリアルの計算科学 3.1 構造物性相関 医薬の分野、特に低分子医薬設計におけるQSARは1960年代のHansch-Fujita法に遡るようである[1]。Hansch-Fujita法では分配係数LogPやハメット定数σなど分子、あるいは分子に存在する官能基の持つ特性値と活性との相関を解析する。その後分子構造式そのもの、あるいは3次元構造や量子化学計算で得られる様々な物理量などがQSARパラメータとして用いられているのは改めて紹介するまでもないと思う。 一方、医薬以外においても、主に化学工学においてQSPRとして原子団寄与法が提案されたのは1955年に遡るが[2]、普及し出したのは、気液平衡に関する臨界温度、臨界圧力、臨界体積などを推算したJoback法[3]の頃からのようである。その後さまざまな改良や新たな手法の提案が行われ、プロセスシミュレーション等に必要な諸物性値の推算に用いられてきた。 高分子材料の分野においても、モノマーユニットの化学構造から原子団寄与法を用いて材料物性を予測する試みが行われてきた。高分子材料のQSPRとして古くから広く用いられている方法としてvan Krevelen法[4]がある。このvan Krevelen法を解説した書籍は1972年に初版が出版されているので、低分子医薬のQSARが用いられだした時期と大きくは変わらない。表1にvan Krevelen法で推算されている物性値の例をあげる。このように多様な物性値を実験データに基づいた推算式により推算することができる。 表1. van Krevelen法により推算できる物性の例 密度、熱膨張係数、ガラス転移温度 結晶融点 溶解度パラメータ(SP値)、凝集エネルギー密度 表面張力 熱容量、融解エンタルピー 体積弾性率、ずり弾性率、伸張弾性率、ポアソン比 引張強度、破断強度 屈折率、誘電率                         等 さらに1993年にはBicerano[5]により、あらかじめ規定された原子団を用いることなく、モノマーユニットの化学構造を構成する元素種と結合情報から、グラフ理論を用いて記述子となるパラメータを抽出し、物性推算を行う手法が報告された。このアプローチは後に述べるマテリアルズインフォマティクスに通じるものであると考えられる。 このようなQSPRの手法は、低分子、あるいはモノマーユニットの構造に由来するものであり、前節で述べたような高分子鎖としての構造や、高次構造の効果は基本的に考慮していない。コポリマーを扱うような場合でも、基本はモノマーの組成比に応じた加成則により物性値を推算するので推算精度にはおのずと限界があり、適応できる対象は基本的にシーケンスがランダムな高分子鎖で、相分離などの高次構造を持たない均一な材料に限定される。とはいえ、タンパク質やDNAを構成するアミノ酸や核酸の組成だけを与えて、その生理的な機能を予測することはほぼ不可能であるのに対して、合成高分子の場合は限られた範囲ではあるが物性予測が可能であることが特徴である。 3.2 分子シミュレーション ソフトマテリアルに対する理論計算を用いたアプローチも、医薬と同様、様々な目的で利用されてきた。例えば、合成反応設計に対する量子化学計算の適用などは、材料においても医薬と同様に広く行われている。また屈折率、誘電率のような高次構造や分子間相互作用の寄与が低いような光学的、電気的物性などは、単分子、あるいは高分子の場合、一部を切り取ったオリゴマー構造の量子化学計算によりおおよその物性値を計算することが可能である。図2に各種高分子の固有複屈折率Δn0の計算例を示す[6]。計算法の詳細は省くが、3量体程度の部分構造を用いて密度汎関数法計算により得られる分極率や、コンフォメーション、およびBicerano法により推算した密度の値などを組み合わせて推算を行っている。 このように、高分子の一部を切り出して計算することにより予測できる物性もあるが、強度、弾性率のような機械的物性、結晶融点、非晶のガラス転移温度のような熱的物性など、分子集合体の構造が大きく寄与するような物性を予測するには、できるだけ現実に近い集合体の構造を対象に計算を行うことが必要になる。このような分子集合体を扱うために古典的力場を用いたMM/MDシミュレーションが行われる。ソフトマテリアルにおいても、用いられるMM/MDの基本原理は医薬分野と全く同じで、アプリケーションプログラムもGROMACS[7]などの汎用MDパッケージが用いられる。シミュレーションできる時空間スケールも通常の計算機環境では、空間スケールがnmオーダー、時間スケールがμsecオーダー程度であることも変わらない。生体高分子系でも周期境界条件を考慮して水中の挙動をシミュレーションするようなことが一般的に行われると思うが、材料の場合は、通常、固体状態あるいは溶液におけるミセルのような分子集合体の挙動を調べないといけないので、ユニットセルに分子を詰めて、周期境界条件を考慮した計算を行うのがデフォルトである。高分子鎖の場合、凝集状態において分子がグロビュール状に各々独立した状態で凝集しているのではなく、コイル状に大きく広がった状態をとり、多数の分子鎖が入り組んだ状態で存在する。通常工業的に用いられる分子量の高分子鎖の広がりは数十nmのオーダーであるため、現実的にシミュレーションできるユニットセルのサイズより大きい。よって一本の分子鎖の頭の部分が周期境界条件により自分の尻尾のイメージと相互作用するような場合が起こりうる。図3にそのような高分子集合体の計算モデルを示す。このように自分自身のイメージと相互作用することによる弊害はもちろんあるが、MDの時間スケールは限られており、高分子鎖全体の運動性に対応する時間スケールまでシミュレーションが実行されるわけではないので、結果的に周期境界条件の弊害が顕著に表れないことが多い。 このようなMM/MDシミュレーションを用いて予測される特性の例を表2に挙げる。 表2. 分子力学/分子動力学により推算できる物性の例 密度、熱膨張係数、ガラス転移温度 結晶融点 溶解度パラメータ(SP値)、凝集エネルギー密度 表面張力 熱容量、熱伝導度 体積弾性率、ずり弾性率、伸張弾性率、ポアソン比 ガス拡散係数 溶解自由エネルギー、吸着自由エネルギー        等 ただし、当然のことながら、現実の材料構造を正しくモデリングできるかどうかにより、得られた推算値と実験値との整合性が大きく左右される。図3右図に示すような非晶構造のシミュレーションで得られた物性値は、結晶部分を持つような実際の材料の実験値と一致しないのは当然のことである。またシミュレーションで扱える時間スケールも実際の観察とは大きく異なるので、注意が必要である。例えば材料を変形した場合の弾性挙動などを予測する際でも、シミュレーションで可能な変形速度は現実には起こりえないような高速である場合が多いので、それで得られた弾性挙動をダイレクトに実験と比較してよいかどうかは慎重に判断しなければならない。 3.3 粗視化分子シミュレーション 前節で紹介したような分子シミュレーションは非常に計算コストがかかり、多くの材料が持つ多相構造を扱うことは現実的には困難である。そこで分子構造を粗視化したモデルを用いたMDシミュレーションがソフトマテリアルの分野でもよく行われる。生体系を取り扱う場合も様々な粗視化分子モデルが用いられてきているが、粗視化MDシミュレーションにおいてはMARTINI force field(あるいはMARTINI model)[8]がよく知られている。MARTINIではアミノ酸、核酸、糖、脂質など様々なパラメータが整備されているが、生体高分子に加えて合成高分子の力場パラメータも報告されており、材料科学におけるMARTINIの利用に関しても最近総説が出ている[9]。総説によると、すでに50種の異なる合成高分子の構造ライブラリが提供されているようである。  MARTINIでは、図4に示すように水素を除いた原子4個を基本粗視化ユニットとしている。一般的に化学構造を反映したボトムアップな粗視化を行おうとした場合、この程度の粗視化が限界だといわれている。さらにMARTINIを用いた研究は主に分子鎖の3次元構造を再現することを目的としている例が多く、材料分野のシミュレーションの目的として重要な、物性予測を行った事例は少ない。 一方、高分子物理の分野においては、より粗視化の進んだモデルを用いて、からみあいとそれに起因する粘弾性のような高分子の普遍的な構造と特性に関する研究が進められてきた。その一例がビーズ-スプリングモデルである。このビーズ-スプリングモデルはその名の通り、粗視化ユニットであるビーズがバネで結合されて高分子鎖を表している。ビーズ間の相互作用やバネの関数形によっていくつかのモデルがあるが、現在でも最もよく使われているのはKremerとGrestが提案した[10]、ビーズ間の相互作用にLennard-Jonesポテンシャルを用い、バネとして有限伸び切り効果を持つFENEポテンシャルを用いたもので、Kremer-Grestモデルとして高分子シミュレーションの分野では広く知られたモデルである。 図5に分子モデルとビーズ-スプリングモデルの対応のイメージを示すが、このように高度に粗視化されたモデルの場合、化学構造を正しく反映するような粗視化は困難で、からみ点間分子量のような実験とシミュレーション両者で観察される物理量に基づいてスケーリングを行うというトップダウン的なアプローチにより実材料とのマッピングを行う。例えば粘弾性測定によるポリスチレンのからみ点間分子量Meが18,000、ビーズ-スプリングモデルの粗視化MDシミュレーションにより得られたからみ点間ビーズ数Neが35であった場合、1ビーズはポリスチレン分子量514、約5モノマーユニットに相当すると考える(注:1990年のオリジナルの論文ではNe≒35と見積もっており、ここではその当時のスケールを紹介したが、その後の検討[11]によりNeの値は70-80程度の大きな値であると報告されている)。 このビーズ-スプリングモデルは元々溶融高分子の構造とダイナミクスを対象としたモデルであるが、相互作用パラメータ等を調整することにより、ガラス状態を取り扱うことも可能である。筆者ら[12][13]は、熱可塑性エラストマーモデルとして、ミクロ相分離構造を形成するガラス状ブロックとゴム状ブロックからなるブロックコポリマーのモデリングを行い、エラストマーの弾性挙動予測を行った。図6にシミュレーションの概要を示すが、自己無撞着場理論(SCFT)から得られたブロックコポリマーのミクロ相分離構造に基づいてモデリングした粗視化分子モデルを、実験と同様に粗視化MDシミュレーションにおいて伸長しながら、応力-ひずみ挙動を解析する。 化学構造を正確に反映することが困難なトップダウン型の粗視化モデルを用いる以上、得られる物性を実験値と定量的に合わせることは難しいが、ソフトマテリアルのデザイン、特にコスト面が重要になる工業的には、同じ化学構造を用いて組成やシーケンスを設計することにより、物性を制御することがよく行われるので、このような定性的なシミュレーションで傾向を示すことでも、材料開発を進めていく上で有用な知見となる。 3.4 マテリアルズインフォマティクス 直接医薬開発に関わっていない筆者から見ると、医薬の分野においては、Hansch-Fujita法の時代からケムインフォマティクス、バイオインフォマティクスまで、情報科学的手法は継続的に利用され、大きく発展して来たように見える。一方マテリアルの分野では、先に紹介したQSPRは、材料構造の多階層性や求められる特性の多様性のため、限られた用途、範囲でしか用いられず、永らくの間それほど目立った進歩がなかった。しかしながら2011年、当時のオバマ米大統領が”Materials Genome Initiative”[14]という、情報技術や計算科学を駆使し、優れた新材料の発見から実用化までのスピードを2倍に早める計画を立ち上げたことを発端に、材料設計の分野におけるインフォマティクスの活用、マテリアルズインフォマティクス(MI)が脚光を浴びるようになってきた。 MIは当初、無機材料の分野で発展してきたが、最近ではソフトマテリアル、特に高分子材料へのMIの適用が期待されている[15][16]。高分子MIの基本的なアプローチは、ケムインフォマティクスと同様、分子構造(高分子の場合モノマーの化学構造)に基づいて、様々な記述子を抽出し、機械学習を用いて実験あるいは理論計算で得られる物性値との回帰を行うことにより、物性推算システムを構築する。しかしソフトマテリアルの場合、先に述べているように分子構造のみで決定される特性は多くなく、たとえ高度な記述子や機械学習の手法を適用しても、基本的に従来のQSPRの域を出ない。古典的なQSPRを超えた精度、実用性を得るためには、分子構造に加えて、材料の加工時のプロセス条件、それにより生成される高次構造まで考慮した物性予測、すなわちプロセス-構造-物性相関が重要である。ただ、高次構造の観察には電子顕微鏡等限られた手法によるしかなく、機械学習が必要とする大量のデータを用意することは困難である。そこで先に紹介したような粗視化シミュレーションにより得られる高次構造を用いてMIを進めていくというアプローチが期待されている。 高次構造を考慮したMIの事例として、筆者らは前節で紹介した熱可塑性エラストマーモデルの粗視化MDシミュレーションのデータに基づいて、深層学習を用いて3次元相分離構造と応力-ひずみ曲線の回帰を行った[17]。実際の材料においては、規則正しい最安定な相分離構造が得られるとは限らず、非平衡な状態で構造が凍結する場合が多い。図7に検討の流れを、図8にシミュレーションで求めた応力-ひずみ曲線と相分離構造から予測した結果を示す。このように高次構造を加味した深層学習により、シミュレーションより高速で、かつこれまでのQSPRを超えた物性予測が可能になる。 4. おわりに ソフトマテリアル分野の計算科学に関して、限られた範囲であるが筆者の知見に基づいて紹介させていただいた。材料開発においても基本的なアプローチは医薬開発と同様で、QSP(A)R、理論計算、インフォマティクスなどの手法が場合に応じて利用されてきている。ここでは触れなかったが、実験においてもコンビナトリアルケミストリー、ハイスループットスクリーニング、自動実験などのアプローチも一部の材料開発で利用されている。材料側から見ると医薬開発における計算科学の利用は、“薬理活性を有する化合物の探索”というようにターゲットが明快で、取り組みやすいように見える。しかしながら、薬理活性の高い化合物が見つかったからと言って、医薬品として世に出すためには、毒性、副作用、安定性、合成コストなど様々な壁があり、簡単なものではないというのは医薬業界に籍を置かないものにとっても自明である。さらに分子設計が出来ても、製剤に進む際には様々な高次構造の制御が必要になってくるというのも、ソフトマテリアルと共通する部分である。 それでも、医薬開発において計算科学が一定の地位を占めているのは、薬理活性のように「それがないと薬にならない」という、ここ一番の要所におけるスクリーニングに使うという位置づけが確立されているからではないかと考える。一方、材料の分野では様々な素材と用途があり、開発のスキームや抑えるべき要所も多岐にわたるため、計算科学の利用法が確立されておらず、「わかる人にしか使えない」、「どこから手を付けていいのかよくわからない」状態が多くみられる。材料の多様性を考えると一朝一夕にブレークスルーが起きるとは考えにくいが、材料分野の計算科学の利用に関しても、要所を抑えた効率的な利用法が普及していくことが望まれる。一方、医薬開発においても、製剤などソフトマテリアルの計算科学が貢献できる分野が多々あると思われるので、医薬-マテリアル間の交流が今後ますます進むことを期待する。 謝辞 本稿で紹介した事例の一部は、JSPS科研費 新学術領域研究 「次世代物質探索のための離散幾何学」17H06464の助成を受けたものです。 参考文献 [1] Hansch, C., Fujita T. ?-?-? Analysis. A Method for the Correlation of Biological Activity and Chemical Structure, J. Am. Chem. Soc., 86, 1616-1626 (1964). doi: 10.1021/ja01062a035 [2] Lydersen, A. L. Estimation of Critical Properties of Organic Compounds, Univ. Wisconsin Coll. Eng., Eng. Exp. Stn. rept. 3, (1955). [3] Joback, K. G., Reid, R. C. Estimation of Pure-Component Properties from Group-Contributions, Chem. Eng. Commun., 57, 233-243 (1987). doi: 10.1080/00986448708960487 [4] van Krevelen, D. W. te Nijenhuis K. Properties of Polymers, 4th completely revised ed., Elsevier (2009). [5] Bicerano, J. Prediction of Polymer Properties, 3rd ed., CRC press (2002). [6] Tanaka, T, Shirai, H., Aoyagi, T. Proceedings of PPS-22: 22nd annual meeting of the Polymer Processing Society, Yamagata, Japan (2006). [7] https://www.gromacs.org/ [8] Marrink, S. J., Tieleman D. P. Perspective on the Martini model, Chem. Soc. Rev., 42, 6801-6822 (2013). doi: 10.1039/c3cs60093a [9] Alessandri. R., Grunewald, F., Marrink, S. J. The Martini Model in Materials Science, Adv. Mater., 33, 2008635 (2021). doi: 10.1002/adma.202008635 [10] Kremer K., Grest, G. S. Dynamics of entangled linear polymer melts:? A molecular-dynamics simulation, J. Chem. Phys., 92, 5057-5086 (1990). doi: 10.1063/1.458541 [11] Likhtman, A. E., Sukumaran, S. K., Ramirez, J. Linear Viscoelasticity from Molecular Dynamics Simulation of Entangled Polymers, Macromolecules, 40, 6748?6757 (2007). doi: 10.1021/ma070843b [12] Aoyagi, T., Honda, T., Doi, M. Microstructural study of mechanical properties of the ABA triblock copolymer using self-consistent field and molecular dynamics, J. Chem. Phys., 117, 8153-8161 (2002). doi: 10.1063/1.1510728 [13] Aoyagi T. Coarse-grained molecular dynamics study of elasticity of block copolymers with cubic symmetrical morphology, Polymer, 243, 124624 (2022). doi: 10.1016/j.polymer.2022.124624 [14] https://www.mgi.gov/ [15] Audus D. J., de Pablo, J. J. Polymer Informatics: Opportunities and Challenges, ACS Macro Lett., 6, 1078-1082 (2017). doi: 10.1021/acsmacrolett.7b00228 [16] Chen, L. et al., Polymer informatics: Current status and critical next steps, Mater. Sci. Eng. R: Reports, 144, 100595 (2021). doi: 10.1016/j.mser.2020.100595 [17] Aoyagi, T. High-throughput prediction of stress-strain curves of thermoplastic elastomer model block copolymers by combining hierarchical simulation and deep learning, MRS Advances, 6, 32-36 (2021). doi: 10.1557/s43580-021-00008-1 ///// Cutting Edge ///// データサイエンスに基づく分子設計・材料設計・プロセス設計の 研究紹介 明治大学 金子弘昌 1. はじめに 医薬品をはじめとする高機能性材料を研究・開発・製造する際、化学データや化学工学データを活用して機械学習を行い、分子設計・材料設計・プロセス設計・プロセス管理を効率化することが一般的となっている。分子設計では、化合物の化学構造・分子構造を数値化した分子記述子 x と活性・物性・特性 y との間で数理モデル y = f(x) を構築する。構築されたモデルに基づいて、新たな化学構造に対する活性・物性・特性の値を予測したり、活性・物性・特性が所望の値となる化学構造を設計したりする。 材料設計では、材料の物性・活性・特性 y と材料の合成条件や製造条件 x との間で数理モデル y = f(x) を構築する。モデルに基づいて、実験前もしくは製造前に材料の合成条件や製造条件から材料の物性・活性・特性を予測したり、目標の材料を達成するための合成条件や製造条件を設計したりする。 プロセス設計では、目標の性能をもつ装置やプラントを設計するため、プロセスシミュレーションもしくは実験を行う際のプロセス条件 x と装置・プラントの性能 y との間で数理モデル y = f(x) を構築することで、装置やプラントの目標の性能を達成するためのプロセス条件を効率的に設計できる。 プロセス管理では、温度や圧力などの簡単に測定可能なプロセス変数 x と製品品質を代表する濃度・密度などの測定が困難なプロセス変数 y との間で数理モデル y = f(x) を構築する。モデルを用いることで、簡単に測定可能なプロセス変数の値から、測定が困難なプロセス変数の値をリアルタイムかつ連続的に推定できる。推定値を実測値の代わりに使用することで効率的なプロセス制御を達成できる。 分子設計・材料設計における研究・開発はケモインフォマティクスやマテリアルズインフォマティクス、プロセス設計やプロセス管理における研究・開発はプロセスインフォマティクスと呼ばれ、それぞれ活発な議論がなされている。それぞれの分野において、説明変数 x と目的変数 y との間で予測精度の高い数理モデル y = f(x) を構築することが重要である。モデル構築手法として、線形手法には partial least squares regression (PLS) [1], リッジ回帰, least absolute shrinkage and selection operator, elastic net [2] があり、非線形手法には、サポートベクター回帰 (support vector regression, SVR) [3], 決定木 [4], ランダムフォレスト [5], gradient boosting [6], deep neural network (DNN) [7] がある。サンプル数が非常に大きい場合は DNN のようなフィッティングパラメータの多い手法が有効である一方で、サンプル数が小さい場合は、サンプルに含まれるノイズにもモデルが適合してしまう過学習に注意してモデルを構築しなければならない。データセットごとにモデルの予測性能を適切に評価して、過学習のない予測精度の高いモデル構築手法を選択する必要がある。 モデルを運用して分子設計・材料設計・プロセス設計・プロセス管理をする際は、モデルの適用範囲 (Applicability Domain, AD) [8] を考慮する必要がある。AD とはモデルが本来の予測性能を発揮できる x のデータ領域のことである。新しいサンプルの x の値が AD 内であれば y の予測値を信頼できるが、AD 外であれば信頼できない。与えられたデータセットに基づいて AD を設定し、新しいサンプルの y の値を予測する際は AD 内か AD 外か検討する。本誌では、この AD に関連して、モデルが AD 内の新しいサンプルを予測する際の誤差を推定する研究例を紹介する。 AD を考慮することで的確な予測を達成できる一方で、分子設計・材料設計・プロセス設計に必要なことは、物性・活性・特性 y の目標値からそれを実現するための特徴量 (合成条件・プロセス条件など) x を導くことである。これをモデルの逆解析と呼ぶ。ただ一般的な逆解析で行われていることは、x の仮想サンプルをコンピュータで大量に生成し、それらをモデルに入力して y の値を予測し、予測値が良好な仮想サンプルを選択する、すなわち順解析を網羅的に繰り返す擬似的な逆解析にすぎない。これでは人が事前に想定した x の探索範囲における y を予測することにすぎず、当初想定しない条件でこそ発現する新機能の探索には全く対応できない。 著者の研究室では、y の値から x の値を直接的に予測する、すなわち数理モデルを直接的に逆解析する手法「直接的逆解析法」を開発している [9,10]。数理モデルを解析することで、y の目標値から直接 x の値を自由自在に予測できる。さらに直接的逆解析法では y が複数、すなわち物性・活性・特性が複数存在する場合でも、すべての物性の目標値を満たす x の値を提案できる。直接的逆解析法を実行するための無料の Python ライブラリもある [11]。本誌では、直接的逆解析法を活用した分子設計および材料設計に関する研究例を紹介する。 モデルの逆解析により合成条件 x が提案された後、実際に合成して物性・活性・特性 y の値を測定する。測定値が目標を満たしていれば開発は終了となるが、目標を満たしていなければ、そのデータをデータセットに追加してモデルを再構築し、次の x を提案する。このように実験・モデル構築・モデルの逆解析を繰り返すことを適応的実験計画法と呼ぶ。特に y の目標値が高い場合にはベイズ最適化 (Bayesian Optimization, BO) [12] により効率的に目標までの合成条件を探索できる。BO は、ガウス過程回帰モデルにより得られる y の予測値とその分散により計算される獲得関数を指標にして、内挿だけでなく外挿も探索することで効率的な適応的実験計画法を達成しようとする手法である。さらに近年、上述した直接的逆解析法により BO を凌ぐ合成条件探索の効率化が達成されたため、本誌の最後に紹介する。 2. 新しいサンプルにおける予測誤差の推定 数理モデルを用いて AD 内の新しいサンプルの y の値を予測する際に、予測誤差を推定する手法 [13] を紹介する。AD 内のサンプルであるため、モデル構築用データにおける推定精度と同程度の精度で予測できるはずであるが、偶然の相関によりモデル構築用データにおけるモデルの推定性能は高く見積もられてしまう。偶然の相関とは、本来は特徴量の間の相関はない、もしくは相関が弱くても、実際のサンプル群において、ノイズ等の影響により偶然に相関が出たり、強くなったりする現象である。偶然の相関の影響がモデルに反映されることが、モデルの過学習を意味する。サンプル数が小さいほど、そして x の数が大きいほど偶然の相関が起こりやすく、モデルが過学習しやすい。 モデルの予測精度を見積もるためには偶然の相関の影響を考慮する必要がある。偶然の相関の程度を推定するため y-randomization (もしくは y-scrambling) に着目した。y-randomizationとは、モデル構築用データにおいて、x の値はそのままで y の値のみサンプル間でシャッフルし、モデル構築およびモデル構築用データの推定を行う手法である。y のみシャッフルしていることから x と y の間の相関関係はないと考えられ、y-randomization では y の推定誤差が大きくなるはずであるが、特にサンプル数が小さく x の数が大きい場合には、偶然の相関により y の推定誤差が小さくなってしまう。実際のモデル構築時の推定誤差が小さくても、y-randomization での推定誤差も小さければ、そのデータセットは偶然の相関が起こりやすいといえ、モデル構築用データを用いて見積もられる推定性能が本来の性能より高く評価されてしまう。 偶然の相関の影響を除外してモデルの予測性能を評価する指標が chance correlation-excluded MAE (MAECCE) [13] である。MAE (Mean Absolute Error) は y の誤差の絶対値の平均であり、MAECCE は以下の式で表される。 (1) ここで、MAETRAIN はモデル構築用データにおける MAE、MAEMEAN は y の推定値をモデル構築用データの y の平均値としたときの MAE、MAEyRAND は y-randomization 時のMAEである。(MAEMEAN ? MAEyRAND) により偶然の相関による MAE の大きさが分かり、それを MAETRAIN に足し合わせることで、新しいサンプルに対する MAE を推定する。偶然の相関の影響がないときは、MAEyRAND は MAEMEAN と等しくなり、MAECCE はMAETRAIN と一致する。y-randomizationは複数回実施されるため、MAECCE も複数の値が得られる。これらの値の分布が新しいサンプルを予測したときの MAE の分布を表すと考えられる。 水への溶解度が測定された 1290 個の化合物のデータセット logS [14] と、環境毒性として pIGC50 が測定された 1213 個の化合物のデータセット Tox [15] を用いて、新しいサンプルにおける予測誤差の推定に関する検証を行った。分子記述子は RDKit [16] により計算された2次元記述子である。モデル構築用データのサンプル数を 30 として、残りをモデル検証用データとした。モデル構築手法は PLS である。 MAECCE のヒストグラムと、テストデータにおける実際の MAE (MAETEST) を図1に示す。MAETEST はモデル検証用データにおける MAE である。MAECCE が分布として推定され、実際の MAETEST が分布の中心付近であることがわかる。MAECCE により新しいサンプルの予測誤差を適切に推定できることを確認した。 (a) logS (b) Tox 図1. MAECCE のヒストグラム [13]。MAETEST はモデル検証用データにおける MAE を意味する 3. 直接的逆解析法による分子設計 物性・活性・特性 y の目標値から、分子記述子や合成条件・製造条件 x を直接的に予測できる直接的逆解析法が可能な回帰分析手法は、Gaussian mixture regression (GMR) [10] および Generative topographic mapping regression (GTMR) [17] である。GMR やGTMR により構築されたモデルでは、x と y の間のすべての関係、すなわち同時確率分布が複数の正規分布の重ね合わせ (混合正規分布) で表現される。この同時確率分布に基づいて、確率の乗法定理とベイズの定理により、y の値が与えられたときの事後確率分布である x の確率分布を獲得でき、この分布も混合正規分布で表現される。x の確率分布が高くなる値が y の値をモデルに入力したときの x の予測値となり、直接的逆解析が達成される。GMR や GTMR は y が複数の場合も対応でき、GTMR ではデータの可視化もモデルの順解析もしくは逆解析と同時に達成可能である。なお GMR におけるパラメータ最適化に、expectation-maximization アルゴリズムだけでなく変分ベイズ法を用いることで、予測精度の向上が達成された [10]。x に制約条件が存在したとしてもそれを考慮した x の予測が可能である [18]。 今回は GTMR を実データに応用した解析結果を紹介する。使用したデータセットは、水への溶解度を S [mol/L] としたときの log(S) が測定された 1290 個の化合物のデータセット [14] である。重複している16化合物は削除した。化合物の分子記述子 200 個を RDKit [16] を用いて計算した。865 化合物をモデル構築用データ、409 化合物をモデル検証用データとした。同じ値を持つサンプルの割合が 0.8 を超える記述子を除去した後、遺伝的アルゴリズムに基づく PLS を用いて 10 個の記述子を選択した。 GTMR によりデータの可視化をした結果を図2に示す。化合物が二次元平面全体に分散していることがわかる。また二次元平面上において近くに位置している化合物は logS の値も近い化合物であり、logS の値が大きい領域や小さい領域に分かれている。GTMR により化合物群を良好に可視化できた。 GTMR と比較のため用いたガウシアンカーネルによる SVR により、モデル構築用データを用いてモデルを構築し、モデル検証用データのlogSを推定した結果を図3に示す。GTMRと比較してSVRの方が、化合物が対角線付近に固まっており、GTMRと比較してSVRの推定性能が高かった。図3(b)では対角線から外れるサンプルも散見されたが、GTMRにより全体的に logS の値を推定できた。 続いて logS の目標値を比較的水に溶けやすい化合物がもつ値である 1.6 として、全化合物を用いて構築したGTMRモデルを逆解析した。y = 1.6 としたときの x (分子記述子) の値が得られ、その値を用いて化合物探索を行った。探索に用いた化合物セットは、Enamine社 [18] から提供され、Initiative for Parallel Bioinformatics (IPAB) [19] によって編集された約 250 万化合物である。モデルの逆解析によって推定された記述子セットとユークリッド距離の近い化合物を選択した。選択された化合物の一例を図4に示す。ヒドロキシ基やフッ素基などの官能基をもつ、極性化合物が選択されていることがわかる。GTMR によって適切にモデルの逆解析に基づく化合物探索を行えることを確認した。 図2. GTMR によるデータの可視化結果 [17]。カラーバーは logS の値に対応する (a) SVR (b) GTMR 図3. モデル検証用データの logS の予測結果 [17] 図4. logS の目標値を 1.6 とした際の GTMR による直接的逆解析の結果 [17] 4. 分子設計・材料設計・プロセス設計のための直接的逆解析法による適応的実験計画 直接的逆解析法によりベイズ最適化を凌ぐ実験条件探索の効率化が達成された例 [20] を紹介する。合成条件 x と物性・活性・特性 y の間の複雑な非線形関数を、x で合成して y の結果が得られる系と仮定して、適応的実験計画法を実施する。非線形関数は Rastrigin 関数 [21] に基づく以下の式を使用した。 (2) ここで d は x の数、xi は i 番目の x を表す。d = 5, 10, 15 として、それぞれにおいて設定した y の目標値を越える x の候補を探索することを目的とする。 30 サンプルを最初のデータセットとして、ランダムにサンプルを選択 (Random)、BO によりサンプルを選択、GMR に基づく直接的逆解析法のいずれかにより、次のサンプルを一つ選択する。GMR では、数理モデルとして x と y の間のすべての関係を複数の正規分布の重ね合わせで表現することで、ベイズの定理と確率の乗法定理から、y が与えられた際の x の事後確率分布を計算できる。これにより y の目標値から直接 x の値を瞬時に予測できる。 それぞれの方法で選択されたサンプルの x の値から、式(2)で y の値を計算する。この値が y の目標値を超えた場合は終了するが、超えていない場合は再度それぞれの探索手法で次のサンプルを一つ選択する。これを y の目標値を超えるまで繰り返す。ただし、繰り返し回数が 100 回に到達したら (合計の実験回数が 130 になったら)、強制的に終了とする。 y の目標値を超える x の探索にかかった手法ごとの実験回数の平均値を表1 に示す。Random では目標を達成できない状況において、BO と比較して大幅に少ない実験回数で、GMR により y の目標値を達成した。特に BO では x が多くなると実験回数も大きくなってしまったが、GMR では少ない実験回数で効率的に目標まで到達できた。直接的逆解析法により効果的な適応的実験計画が可能となることを確認した。 各手法における、実験ごとの y の値の推移の例を図5 に示す。BO では y の値が全く向上しない状況において、GMR では実験ごとに y の値が向上し、さらに最後の実験において既存の実験データにおける y の値を超越する y の値を達成した。GMRにより、適切に外挿領域のサンプルを探索できること、および既存の y の値を超越する実験結果を獲得することが可能であることを確認した。 表1. 手法ごとの目標到達までの実験回数 [20] d Random BO GMR 5 130 55 50 10 130 58 35 15 130 98 35 図5. 手法ごとの実験回数ごとの y の値の推移の例 (d = 15) [20] 5. おわりに 今回はケモインフォマティクス・マテリアルズインフォマティクス・プロセスインフォマティクスの研究例として、新しいサンプルにおける予測誤差の推定、直接的逆解析法による分子設計、分子・材料・プロセスの設計のための直接的逆解析法による適応的実験計画について紹介した。同じ研究分野において、モデルの予測精度向上のための新たな記述子の研究 [22]、ポリマー材料 [23] や熱電変換材料 [24] や金属有機構造体 [25] をはじめとする様々な高機能性材料の設計、所望の性能を満たす化学プラントの設計 [26]、プロセスの推定制御のためのソフトセンサー [27,28]、スペクトル解析 [29] など活発な議論がなされている。 著者は協力者と一緒に、本誌でも説明した化学分野で有用なデータ解析・機械学習に基づいた分子設計・材料設計・プロセス設計をプログラミングなしに容易な操作で実施できるウェブサービスを開発中である (2022年春リリース予定)。データアクセス・化学構造生成・実験計画法・分子記述子計算・データの可視化・データの前処理・回帰分析・適応的実験計画法・ベイズ最適化・時系列データ解析・モデル最適化・直接的逆解析の機能がすべて搭載されている。興味のある方は著者にご連絡いただきたい。化学・化学工学データと機械学習を組み合わせることで、分子設計・材料設計・プロセス設計・プロセス管理が効率化することを期待する。 参考文献 [1] Wold, S., Sjostrom, M., Eriksson, L. PLS-regression: a basic tool of chemometrics, Chemom. Intell. Lab. Syst., 58, 109?130 (2001). [2] Li, Z. T., Sillanpaa, M. J. Overview of LASSO-related penalized regression methods for quantitative trait mapping and genomic selection, Theor. Appl. Genet., 125, 419?435 (2012). [3] Bishop, C. M. Pattern recognition and machine learning, Springer, New York (2006). [4] Bruce, C. L., Melville, J. L., Pickett, S. D., et al. Contemporary QSAR classifiers compared, J. Chem. Inf. Model., 47, 219?227 (2007). [5] Palmer, D. S., O’Boyle, N. M., Glen, R. C., et al. Random forest models to predict aqueous solubility, J. Chem. Inf. Model., 47, 150?158 (2007). [6] Voyant, C., Notton, G., Kalogirou, S., et al. Machine learning methods for solar radiation forecasting: A review, Renew. Energ., 105, 569?582 (2017). [7] Goh, G. B., Hodas, N. O., Vishnu, A. Deep learning for computational chemistry, J. Comput. Chem., 38, 1291?1307 (2017). [8] 金子弘昌, 化学のための Pythonによるデータ解析・機械学習入門, オーム社 (2019). [9] Shimizu, N., Kaneko, H. Direct inverse analysis based on Gaussian mixture regression for multiple objective variables in material design, Mat. Des., 196, 109168 (2020). [10] Kaneko, H. Extended Gaussian mixture regression for forward and inverse analysis, Chemom. Intell. Lab. Syst., 213, 104325 (2021). [11] https://datachemeng.com/dcekit/ [12] 金子弘昌, Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析, 講談社 (2021). [13] Kaneko, H. Estimation of predictive performance for test data in applicability domains Using y-randomization, J. Chemom., 33, e3171 (2019). [14] Hou, T. J., Xia, K., Zhang, W. et al. ADME evaluation in drug discovery. 4. prediction of aqueous solubility based on atom contribution approach, J. Chem. Inf. Comput. Sci., 44, 266?275 (2004). [15] http://www.cadaster.eu/node/65.html [16] https://www.rdkit.org/ [17] Kaneko, H. Data Visualization, regression, applicability domains and inverse analysis based on generative topographic mapping, Mol. Inf., 38, 1800088 (2019). [18] http://www.enamine.net/ [19] http://www.ipab.org/initiative-for-parallel-bioformatics-ipab?set_language=en [20] Kaneko, H. Adaptive design of experiments based on Gaussian mixture regression, Chemom. Intell. Lab. Syst., 208, 104226 (2021). [21] https://www.sfu.ca/~ssurjano/rastr.html [22] Nitta F., Kaneko, H. Two- and three-dimensional quantitative structure-activity relationship models based on conformer structures, Mol. Inf., 40, 2000123 (2021). [23] Takano, S., Kaneko, H. Monomer design of polymer materials with high refractive index and high glass transition temperature, J. Comput. Chem. Jpn., 18, 115-121 (2019). [24] Yoshihama, H., Kaneko, H. Design of thermoelectric materials with high electrical conductivity, high Seebeck coefficient, and low thermal conductivity, Anal. Sci. Adv., 2, 289-294 (2021). [25] Yuyama, S., Kaneko, H. Correlation between the metal and organic components, structure property, and gas-adsorption capacity of metal-organic frameworks, J. Chem. Inf. Model., 61, 5785-5792 (2021). [26] Iwama, R., Kaneko, H. Design of ethylene oxide production process based on adaptive design of experiments and Bayesian optimization, J. Adv. Man. Proc., 3, e10085 (2021). [27] Kaneko, H. Estimating the Reliability of Predictions in Locally Weighted Partial Least-Squares Modeling, J. Chemom., 35, e3364 (2021). [28] Kaneko, H. Beware of r2 even for test datasets: using the latest measured y-values (r2LM) in time series data analysis, J. Chemom., 33, e3093 (2019). [29] Kaneko, H., Kono, S., Nojima, A., et al. Transfer learning and wavelength selection method in NIR spectroscopy to predict glucose and lactate concentrations in culture media using VIP-Boruta, Anal. Sci. Adv., 2, 470-479, (2021). ///// SAR Presentation Award ///// SAR Presentation Awardについて 「SAR Presentation Award」は、構造活性相関シンポジウムにおける若手研究者の発表を奨励し、構造活性相関研究の発展を促進するため、2010年度に創設された。当初は応募制として審査対象講演の募集を行った。2012年度からは、正式名称を「構造活性相関シンポジウム優秀発表賞」(英語表記SAR Presentation Award)と定めた。 2021年度SAR Presentation Awardについて 2021年度は、第49回構造活性相関シンポジウム(オンライン開催)における45歳以下の発表者(日本薬学会会員または受賞後に日本薬学会に入会いただける方)による一般講演(口頭発表・ポスター発表)を選考対象とすることとした。 2021年度SAR Presentation Award受賞者(五十音順) 口頭発表  : 郡 聡実  (横浜市立大学大学院) ポスター発表: 伊藤 朱里 (横浜市立大学大学院) ポスター発表: 武富 啓  (横浜市立大学大学院) ポスター発表: 柴橋 佑希 (横浜市立大学大学院) ポスター発表: 佐藤 朋広 (横浜市立大学大学院) 受賞者の選考について 2021年11月18日にオンラインにて各審査員から提出頂いた審査票を集計し、口頭発表1名、ポスター発表4名を受賞者として選出した。口頭発表の審査は点数方式、ポスター発表の審査は3演題選出するという方式で行った。授賞式は、第49回構造活性相関シンポジウムの閉会式において行った。後日、受賞者には、賞状と副賞を贈呈した。なお、審査にあたっての審査項目は下記の通りである。 口頭発表審査項目 a) 講演要旨: 講演要旨は発表内容を反映して適切に作成されているか。 b) 講演資料: スライドは専門領域の異なる参加者にもわかりやすく、見やすく、かつ発表時間に見合って適切に作成されているか。 c) プレゼンテーション: 発表時に参加者にわかりやすく説明しているか。 d) 研究の目的: 研究の背景と目的、先行研究との関係、研究の新規性あるいは有用性が明確になっているか。 e) 研究成果: 価値のある成果が得られているか。 f) 質疑応答: 質問等に対し、的確な応答・議論がなされたか。活発な討論がなされたか。 g) 将来性: 研究内容について、将来の発展が期待できるか。 審査員 第49回構造活性相関シンポジウムに参加した2021年度常任幹事および幹事 <受賞者コメント> KO-01 氏名 郡 聡実(こおり さとみ) 所属 横浜市立大学 生命医科学研究科 演題 DNAメチル化制御薬の開発:維持メチル化因子UHRF1の機能阻害剤のリード化合物の同定 この度は、第49回構造活性相関シンポジウム優秀発表賞 (口頭) という名誉ある賞を頂戴し、大変光栄に存じます。ご評価いただきました先生方、ならびに日本薬学会構造活性相関部会の先生方に厚く御礼申し上げます。 本発表では、DNA維持メチル化因子であるUHRF1の阻害剤探索について報告しました。DNAメチル化は細胞の形質を決定する重要なエピジェネティック修飾ですが、その異常は細胞のがん化と関連することが知られています。UHRF1は様々ながん細胞で高発現し、異常なDNAメチル化によるがん細胞の異常増殖と関連することから、創薬の標的分子として注目されています。我々は、複製と連携したDNA維持メチル化の初期に形成されるUHRF1とDNA Ligase 1の複合体に着目し、この結合を阻害する化合物の探索を行いました。化合物ライブラリから計算科学で候補化合物を選別し、生化学実験で結合評価を行いました。その結果、5-amino-2,4-dimethylpyridine (5A-DMP) を同定し、この化合物のUHRF1への結合様式をX線結晶構造解析で評価しました。さらに、ツメガエル卵抽出液を用いた無細胞実験で、5A-DMPはUHRF1とDNA Ligase 1の結合を阻害することを明らかにしました。今後、5A-DMPをリード化合物とした構造展開でより活性の高いUHRF1の機能阻害剤の開発が可能であると考えています。 最後に、本研究の実施の機会を与えてくださり、その遂行にあたって終始熱心な学術的指導を賜りました有田恭平教授をはじめ、共同研究でお世話になりました先生方に深謝申し上げます。 <受賞者コメント> KP-05 氏名 伊藤 朱里(いとう あかり) 所属 横浜市立大学大学院 生命医科学研究科 演題 中分子シクロスポリンAとシクロスポリンEの分子ダイナミクスの比較 この度は栄誉ある賞を頂戴し、大変嬉しく存じます。会期中は様々な研究分野の方々とのディスカッションを通じて多くの気づきや学ぶことがあり、非常に意義深いものとなりました。 本研究は、経口投与可能な中分子医薬品シクロスポリンA (CsA) と、その代謝物であるシクロスポリンE (CsE) の膜透過性の差が生まれる要因に、全原子モデルでの分子動力学シミュレーションから迫るものであります。CsAとCsEで水中・膜界面・膜中の3箇所の環境での構造分布に違いがあることがわかっただけでなく、CsAとCsEで1残基異なる部分における主鎖のN-メチル基の有無が、環状構造の形状に影響を及ぼしていることもわかりました。しかし、水中・膜界面・膜中の3箇所の環境以外での計算を行っていないため、水中から膜中における、一連の膜透過過程で起こる構造変化は分かっておりません。一連の計算は通常のスーパーコンピュータの計算資源では行うことができないため、現在はスーパーコンピュータ「富岳」を利用した計算を実施しております。 これらの研究を進めるにあたり、温かなご指導をいただきました池口満徳教授をはじめ、多くのアドバイスをくださった浴本亨助教、理化学研究所の山根努上級研究員、生命情報科学研究室の皆様に心より感謝申し上げます。 <受賞者コメント> KP-06 氏名 武富 啓(たけどみ けい) 所属 横浜市立大学 生命医科学研究科 演題 Effect of Water Molecules on the Activating S810L Mutation of the Mineralocorticoid Receptor この度は、第 49 回構造活性相関シンポジウム SAR Presentation Awardを頂き、誠にありがとうございます。審査員の先生方、並びに日本薬学会 構造活性相関部会の先生方に心より御礼申し上げます。オンラインではありましたが多くのアカデミアの先生方や製薬企業の方々と議論させて頂くことができ、貴重なご意見を頂く事が出来ました。 本研究では、血中に存在するイオン濃度の維持に関わっている硬質コルチコイド受容体を題材とし、疾患を引きおこす活性型Ser810Leu変異の活性化メカニズムを分子動力学シミュレーションにより解明することを試みました。その結果、変異したロイシン残基は”栓“のような役割を果たし、周囲に存在する水分子から硬質コルチコイド受容体に結合しているリガンドを遮蔽し、リガンドの結合を安定化させる働きがあることが分かりました。今後は、他のリガンドや他の蛋白質にも得られた知見を活用していきたいと考えております。 最後に本研究を進めるにあたりご指導を賜りました、横浜市立大学の池口満徳教授、浴本亨助教、理化学研究所の大田雅照上級研究員に感謝申し上げます。 <受賞者コメント> KP-15 氏名 柴橋 佑希(しばはし ゆうき) 所属 横浜市立大学 生命医科学研究科 演題 維持メチル化因子UHRF1の阻害剤探索:分子動力学シミュレーションを組み合わせたインシリコスクリーニング この度は、第49回構造活性相関シンポジウムSAR Presentation Awardを賜り、大変光栄に存じます。ご評価いただきました審査員の先生方、ならびに日本薬学会構造活性相関部会の先生方に深く御礼申し上げます。本シンポジウムでは、様々な専門家の方々と議論を交わし、研究について多くのご意見を頂くことができました。 本研究は、複数の計算科学的な手法を用いて、がん治療薬として期待される、UHRF1の機能阻害剤を開発するというものになります。静的な構造を使ったドッキングシミュレーションと分子動力学シミュレーション(MD)を使った動的情報を組み合わせたスクリーニングを実施し、機能阻害剤となるヒット化合物を得ることができました。このMDを組み合わせた探索は、膨大な数の化合物ライブラリの中から効率的に候補化合物の選別が行えることを実証し、今後の阻害剤探索の置ける新たな方法論を提示できたものと考えております。 最後に、本研究を進めるにあたりご指導賜りました池口満徳教授、浴本亨助教、理化学研究所の山根努上級研究員に感謝申し上げます。また、共同研究者として多大なお力添えをいただきました有田恭平教授、郡聡実さんに感謝申し上げます。 <受賞者コメント> KP-19 氏名 佐藤 朋広(さとう ともひろ) 所属 横浜市立大学 生命医科学研究科 演題 転移学習を用いた活性予測モデルの新規化合物シリーズに対するモデル適用性の改善 この度、第49回薬学会構造活性相関シンポジウム優秀発表賞(ポスター)を賜りまして、大変光栄に存じます。昨年に続き厳しい社会情勢の中、リモート開催によって研究発表の機会をいただきましたこと、運営委員会の先生方に厚く御礼申し上げます。 機械学習に基づく予測モデルは予測適用範囲が学習データに強く依存しており、新規性の高い化合物に対する活性等の予測が外挿となり予測精度が低下してしまうことが課題となっております。本研究では転移学習と半教師あり学習を組み合わせることで、新規化合物シリーズの実験データが少ない場合でも過学習を抑制して効率的な予測モデルのチューニングを可能とする学習フレームワークを開発いたしました。予測モデルの性能評価における内挿・外挿の違いは、しばしば既知データを用いたベンチマークと実際の創薬研究に適用した場合とで予測性能が乖離してしまう原因となっており、今後も機械学習を用いた手法がより創薬の現場に対して貢献できるよう研究を進めていきたいと考えております。 最後に、本研究の共同発表者の寺山慧先生、本間光貴先生に感謝を申し上げます。 ///// Activities ///// 第49回構造活性相関シンポジウム開催報告 日時:令和3年11月18日(木)・19日(金) 会場:オンライン開催 主催:日本薬学会構造活性相関部会 協賛:日本農薬学会・情報計算化学生物学会・日本化学会 後援:日本農芸化学会 11月18~19日の2日間にわたって、第49回構造 活性相関シンポジウムを開催した(図1)。新型コロナウイルスの感染拡大を防ぐために、前回と同様にオンラインによる開催とした。オンラインツールには、 前回ほとんどトラブルがなかったことから、特別・ 招待講演と口頭発表のセッションにZoomを、ポスター発表、ランチョンセッション及び懇親会にRemoを用いた。また、前回、参加費を無料とすることにより多くの参加者を集め、構造活性相関研究の裾野を広げることができたことから、今回も無料とした。その 結果、参加登録279名(うち学生56名)、最多同時  接続数は両日ともに150名程度と多くの参加者があり、前回と同規模の開催となった。 今回のシンポジウムでは、医農薬設計研究の新たなブレイクスルーを創出するため、新規創薬手法や様々な手法の適用事例についての発表を募ったところ、 一般口頭発表8件、ポスター発表32件の演題登録が あった。また、特別講演と二つの招待講演の他、両日ともに2演題のランチョンセミナーを企画した。 特別講演には、部会長を含め長く構造活性相関部会の運営に多大な貢献をしてこられた大阪 大学大学院薬学研究科 高木達也教授に「計量薬学の歴史と未来」と題してご講演をいただいた(図2)。また、初日の招待講演では、株式会社Epigeneron研究開発部長の今枝泰宏先生から、   多様な医薬品モダリティが注目される中での創薬化学と計算化学の連携について、研究事例を 交えて紹介いただいた。2日目の招待講演では、クライオ電顕によるタンパク質構造解析が注目されている昨今であるが、約10年前からSpring-8で運用が開始されているSACLA(X線自由  電子レーザー施設)におけるタンパク質の結晶構造解析の現状と最近の成果について、和歌山県立医科大学薬学部の中津亨教授にご講演いただいた。 一般口頭発表では、インシリコ技術を活用したリード化合物探索をはじめ、タンパク質構造 モデル評価、薬効・薬剤耐性予測、相互作用解析、手法開発等、多様な研究テーマの成果が紹介され、活発な質疑応答があった。Zoom Webinarによる口頭講演・発表は、大きなトラブルなく実施することができたが、質疑応答に際し座長がQ&Aに寄せられた質問を代読し演者が回答 する形式は、多くの学会でも採用されているものの、議論が深まりにくく、改善が必要ではないかと感じている。 ポスター発表は、Remo Conferenceを用いて実施した。セッション直前に、各発表の1分間のショートプレゼンテーション動画を視聴したのちに、発表ブースでポスターを掲示し討論する ようにした。オンラインであるが、図3に示すように各ブースの混み具合がわかるため、効率  よく発表を聴講できるように感じた(人気のある発表は常に混んでいたが)。各ブースでは、  適度に質問者が入れ替わってディスカッションが行われており、リアルな学会と変わらない印象を受けた。しかし、複数の参加者が個々にポスター画面をスクロールすると意図しない方向に 画面が動き、非常に見づらい状況になることがあり、この点が改善されればと思われた。今回、発表者にはショートプレゼンテーション用の動画の他に、シンポジウム開催1週間前から当日 まで視聴できる5分以内の説明動画を作成してもらい、参加者のみが視聴できるようにした。 これらの動画により、参加者が議論を深めたり、時間の都合で聴講できなかった発表の概要を 知ることができたりしたのではないかと思う。 以上の研究発表の他に、両日ともランチョンセッション(12時~13時)を企画し、企業からのセミナーを4件(各日2件)実施した。Remo Conferenceのセミナーモードを用いたが、トラブルなく実施することができた。昼食の提供がないため、あらかじめシンポジウム参加者には お弁当を持参で参加していただくようお願いしておいたところ、両日ともに80名前後の出席があった。 初日のセッション終了後には、Remo Conferenceで懇親会(情報交換会)を開催した。40名   程度のご参加があり、発表の質疑応答の続きや情報交換、コロナ禍でなかなか会うことができない方とのご挨拶など、様々な目的で活用いただけたのではないかと思う。18時の中締め後も、数名の方には20時近くまで歓談していただけた。 SAR Awardは、審査希望のあった発表を対象に、部会幹事のオンライン投票の結果を集計し、受賞者を決定した。以下に受賞者を紹介する。今年も、学生による優秀な発表が多く、受賞者   5名のうち、3名を学生が占めた(図4)。受賞者の皆様にはお祝い申し上げるとともに、受賞を励みに、今後もご活躍されることを期待します。また、審査していただいた先生方にも御礼申し上げます。 図3. ポスターセッション時のRemoの画面 KO-01 郡聡実(こおりさとみ) 横浜市立大学大学院生命医科学研究科 D3 DNAメチル化制御薬の開発:維持メチル化因子UHRF1の機能阻害剤のリード化合物の同定 KP-05 伊藤朱里(いとうあかり) 横浜市立大学大学院生命医科学研究科 M2 中分子シクロスポリンAとシクロスポリンEの分子ダイナミクスの比較 KP-06 武富啓(たけどみけい) 横浜市立大学大学院生命医科学研究科 D3 Effect of Water Molecules on the Activating S810L Mutation of the Mineralocorticoid Receptor KP-15 柴橋佑希(しばはしゆうき)横浜市立大学大学院生命医科学研究科 特任助手 維持メチル化因子UHRF1の阻害剤探索: 分子動力学シミュレーションを組み合わせたインシリコスクリーニング KP-19 佐藤朋広(さとうともひろ)横浜市立大学大学院生命医科学研究科 特任准教授 転移学習を用いた活性予測モデルの新規化合物シリーズに対するモデル適用性の改善 図4. SAR Award受賞式における受賞者の様子 今回のシンポジウムは、ほぼ前回のオンラインシステムの運用を踏襲したため、大きなトラブルなく実施することができた。種々のご助言、情報、資料等をご提供いただいた第48回シンポジウムの実行委員の先生方に感謝いたします。また、これらをもとに本シンポジウムを企画、  調整、運営していただいた実行委員の先生方、アルバイトの学生諸氏にも謝意を表します。 最後に、協賛・展示いただいた企業の皆様、特別講演・招待講演をお引き受け下さいました  先生方、発表者、一般参加の皆様に厚く御礼申し上げます。 第49回構造活性相関シンポジウム 実行委員長 仲西 功 ///// Activities ///// <会告> 構造活性フォーラム2022 「In silicoアプローチによる毒性予測研究および周辺分野の現状と展望」 主催: 日本薬学会構造活性相関部会 協賛・後援:  日本化学会、計算情報科学生物学会(CBI学会)、日本毒性学会 会期: 2022年6月3日 (金) 会場: Zoomによるオンライン開催 フォーラムホームページ: http://www.qsarj.org/forum2022 (4月公開予定) 開催趣旨:化学物質の安全性を確保するために、毒性の評価は必須の課題である。毒性物質を効率的に識別する方法として、in silico技術を用いた予測法の確立には大きな期待が寄せられている。しかし、毒性は一般に複雑な発現メカニズムを伴うことから、予測が困難な対象として知られている。毒性発現過程には、組織・臓器への暴露に関連する体内動態の要因、生体内高分子であるタンパク質や核酸との相互作用、そしてそれに続く多様な生化学経路が関与する。そのため、単一のタンパク質を解析対象とすることは困難であることが多い。肝毒性の様に同じ表現型であっても、原因物質ごとに異なる機序で誘発される例もある。一方、予測モデルの説明性に対する要望は極めて強い。本フォーラムでは、このような毒性関連の生理的なイベントをin silico技術でひもとき、解析し、予測する研究について議論を深めたい。様々な形で毒性関連の研究に携わっている方々にとって有意義な意見交換の場となれば幸いである。 プログラム: 基調講演「毒性発現メカニズムに基づく一般化学品の毒性予測―AI-SHIPSプロジェクト―」 船津 公人(奈良先端科学技術大学院大学) 講演1.「Applicable Artificial Intelligence Method to Drug Metabolism and Pharmacokinetics -Comparison of Various Methods for Metabolic Active Sites-」 笹原 克則(Otsuka Pharmaceutical Development & Commercialization, Inc.) 講演2.「大規模変異原性データを用いた第二回Ames/QSAR国際チャレンジプロジェクト」 古濱 彩子(国立医薬品食品衛生研究所) 講演3.「AI創薬の基盤とデータ統合」 水口 賢司(大阪大蛋白質研究所・医薬基盤健康栄養研究所) 講演4.「拡散方程式のADMET予測モデルへの適用」 日高 中(武田薬品工業) 講演5.「副作用研究におけるAIの可能性」 奥野 恭史(京都大学大学院医学研究科) 参加登録および申込締切日: 5月20日(金)までに、フォーラムホームページから事前参加登録をお願いいたします。参加人数が上限に達しましたら、参加登録を打ち切らせていただきますのでご了承ください。 参加費: 一般会員・関連学会員 1000円 非会員 2000円 学生 無料 問合先: 構造活性フォーラム2022実行委員会 植沢 芳広(実行委員長) 〒204-8588 東京都清瀬市野塩2-522-1明治薬科大学 Tel: 042-495-8983 E-mail: uesawa@my-pharm.ac.jp 部会役員人事 2022年度 常任世話人 部会長 本間光貴(理化学研究所) 副部会長 服部一成(塩野義製薬(株)) 副部会長 竹田?志鷹 真由子(北里大学 薬学部) 会計幹事 川下理日人(近畿大学 理工学部) 庶務幹事 杉本 学(熊本大学大学院 先端科学研究部) 広報幹事 加藤博明(広島商船高等専門学校) SAR News編集長 幸 瞳(理化学研究所) ホームページ委員長 高木達也(大阪大学大学院 薬学研究科) 構造活性相関部会の沿革と趣旨 1970年代の前半、医農薬を含む生理活性物質の活性発現の分子機構、立体構造・電子構造の計算や活性データ処理に対するコンピュータの活用など、関連分野のめざましい発展にともなって、構造活性相関と分子設計に対する新しい方法論が世界的に台頭してきた。このような情勢に呼応するとともに、研究者の交流と情報交換、研究発表と方法論の普及の場を提供することを目的に設立されたのが本部会の前身の構造活性相関懇話会である。1975年5月京都において第1回の「懇話会」(シンポジウム)が旗揚げされ、1980年からは年1回の「構造活性相関シンポジウム」が関係諸学会の共催の下で定期的に開催されるようになった。 1993年より同シンポジウムは日本薬学会医薬化学部会の主催の下、関係学会の共催を得て行なわれることとなった。構造活性相関懇話会は1995年にその名称を同研究会に改め、シンポジウム開催の実務担当グループとしての役割を果すこととなった。2002年4月からは、日本薬学会の傘下組織の構造活性相関部会として再出発し、関連諸学会と密接な連携を保ちつつ、生理活性物質の構造活性相関に関する学術・研究の振興と推進に向けて活動している。現在それぞれ年1回のシンポジウムとフォーラムを開催するとともに、部会誌のSAR Newsを年2回発行し、関係領域の最新の情勢に関する啓蒙と広報活動を行っている。本部会の沿革と趣旨および最新の動向などの詳細に関してはホームページを参照頂きたい。(https://sar.pharm.or.jp/) 編集後記 今号では「マテリアル分野の計算化学」をテーマとして、2人の先生にご執筆をお願いしました。産業技術総合研究所の青柳先生からは、ソフトマテリアル分野での計算科学の活用についてさまざまな事例を交えてご紹介いただきました。明治大学の金子先生からは、予測誤差の推定、直接的逆解析法を活用した分子設計例、適応的実験計画法といった多岐にわたる手法についてそれぞれご紹介いただきました。 本部会では医農薬分野および生理活性物質関連の研究が主ですが、マテリアル分野における化合物最適化と共通する観点が多いと感じております。みなさまのご研究の参考になれば幸いです。ご多忙の中、快くご執筆していただいた先生方に深く感謝申し上げます。 昨年11月に開催した構造活性相関シンポジウムのご報告および6月の構造活性フォーラムの会告も掲載しておりますので、お目通しいただければ幸いです。 (編集委員会) SAR News No.42 2022年4月1日 発行:日本薬学会 構造活性相関部会長 本間光貴 SAR News編集委員会 (委員長)幸 瞳、河合健太郎、清田泰臣、合田浩明、田上宇乃、仲西 功 *本誌の全ての記事、図表等の無断複写・転載を禁じます。