SARNews No.28
構造活性相関部会・ニュースレター<14April,2015>SARNewsNo.28「目次」/////Perspective/Retrospective/////超分子モデリングパイプラインによる創薬支援土方敦司、辻敏之、白井剛・・・2/////CuttingEdge/////天然変性タンパク質の機能予測法についてMunmeeDutta,AshwiniPatil,中井謙太・・・8PoSSuM:ポケット類似性情報に基づく合理的薬剤設計支援に向けて池田和由、富井健太郎・・・14/////SARPresentationAward/////2014年度選考結果について・・・21受賞コメント・・・22授賞講演要旨・・・23/////Activities/////<報告>第42回構造活性相関シンポジウム開催報告今井輝子・・・29第1回QSAR解析ハンズオンセミナー開催報告山下富義・・・30<会告>構造活性フォーラム2015「様々なリード創製手段において創薬に貢献するインシリコ技術」・・・31第43回構造活性相関シンポジウム第10回薬物の分子設計と開発に関する日中合同シンポジウム共同開催・・・32/////Perspective/Retrospective/////超分子モデリングパイプラインによる創薬支援長浜バイオ大学土方敦司、辻敏之、白井剛1.はじめにタンパク質や核酸など生体分子の大部分は、細胞内では複合体(超分子複合体)を形成して複雑な生体機能を司っている。従って、超分子複合体の構造やタンパク質間の相互作用面(分子間の接触に関与する分子表面。以下インターフェースとよぶ)は、効率的なドラッグターゲットの選択や、ドラッグによる機能制御の予測に必須の情報である。しかしながら、超分子複合体の立体構造やタンパク質間インターフェースを実験的に求めることは、多くのケースについて末だに困難な課題である。そこで我々の研究グループでは、超分子複合体構造を計算機を用いて組み上げるためのバイオインフォマティクス技術を高度化し、さらにはそれらの統合により超分子モデリングパイプラインを構築して、超分子複合体の研究を行う実験系研究者を支援することを目的として研究を進めている(図1)。超分子モデリングパイプラインは、(1)データベースなどの情報を統合する知識モデリングシステム、(2)末知の複合体構造を予測するマルチドメインモデリングシステム、(3)粗視化分子動力学計算など利用したモデルリファインメントシステム、(4)GUIを活用したモデル評価支援システムから構成されるmulti-disciplinaryな計算機システムである。ここでは、(1)知識ベースモデリングにおいて、立体構造データベースと相互作用データベースの情報を統合し、超分子複合体構造モデルを予測する研究に焦点をあてて解説する。図1.超分子モデリングパイプライン概念図知識ベースモデリング(Knowledge-basemodeling)、ドッキング(Domain/subunitdocking)、リファイン(MDsimulation)、実験データとの比較(Fittingexperimentalresults)のインタラクティブな繰り返しにより複合体モデルが構築される。2.タンパク質相互作用データと既知構造を用いた複合体モデリング法の開発ヒトゲノムに代表されるように、ゲノムのDNA配列情報はすでに多数の生物種について完成されている。一方、そこから発現するタンパク質やタンパク質複合体の立体構造情報について完成されている生物種は、現時点で1つも存在しない。このゲノムと立体構造の完成度の差は、現在の生物学が抱える重大な情報ギャップの一つである。しかし、構造ゲノミクスの発展によって、すでに生体分子立体構造情報の蓄積は「決して小さくない」レベルに達している。我々は、このギャップを計算科学的アプローチにより解決するために、実験データベースからの知識抽出と統合によるタンパク質複合体モデリング手法を開発している。巨大複合体構造を決定することは困難であっても、構造解析技術の発展により2量体や3量体のタンパク質複合体の立体構造は比較的多く決定され、タンパク質立体構造データベースPDB[1]に登録されている。また、実験的にタンパク質間相互作用を検出する技術も進歩しており、それらはタンパク質間相互作用データベース(IntAct[2],MINT[3],STRING[4]など)に集積され、公開されている。そこで我々は、タンパク質間相互作用データベースIntActとタンパク質立体構造データベースPDBを組み合わせて、タンパク質間相互作用ネットワークからタンパク質複合体を網羅的にモデリングする手法を開発した。2.1複合体モデリングに用いることができるデータ複合体モデリングのストラテジーは極めて単純である。例えば図2に示すような3つのタンパク質A、B、Cからなる相互作用ネットワーク(C-A-B)があった場合に、1)タンパク質AとBおよびAとCの複合体構造がそれぞれ明らかになっている2)2つの複合体においてAが大きな構造変化を起こしていない3)2つの複合体構造をAで重ねあわせたときにBとCが衝突しないこれら3つの条件を満たせば、2つの複合体構造をタンパク質A(重ね合わせに用いるタンパク質をアンカータンパク質と呼ぶ)で重ね合わせることで相互作用ネットワークに基づく3量体モデルを構築することができる。この考え方をベースにして、複合体モデルを構築するアルゴリズムを考案した。このアルゴリズムで、アンカータンパク質による重ね合わせのあと、アンカータンパク質に隣接したタンパク質にアンカータンパク質を移動することで、次々と相互作用するタンパク質をつなぎ合わせて、より大きな複合体構造をモデリング事も可能である。この過程は、アンカーにできるタンパク質が無くなる、または新たに導入できるタンパク質候補が無くなるまで繰り返される。図2.2量体の集積による3量体構造のモデリング図左はC(赤)-A(緑)類縁タンパク質とA(緑)-B(水色)類縁タンパク質の2量体であり、共通するAの重ね合わせにより、図右の3量体モデルが構築される。モデリング可能な複合体は、タンパク質間相互作用ネットワークデータベースに登録されていて、相互作用するタンパク質ペアの複合体構造が実験的に解かれている必要がある。しかしながら、相互作用するタンパク質そのもの同士の立体構造が決定されていることは稀であるので、ホモロジー(分子の進化的な類縁性。類縁分子は構造が保存される)に基づくモデリングを利用する。この場合、複合体構造をモデリングしたいタンパク質ペアとそれぞれ25%以上のアミノ酸一致度を持つタンパク質複合体の構造(テンプレート構造)が既知であれば、その複合体中のインターフェースは、目的の複合体と類似しており、モデリング可能であると期待できる。この条件を満たすデータはIntActに収録されている相互作用全体の8%、ヒトタンパク質の相互作用に限定すると14%であった。ここでは、このヒト由来タンパク質の相互作用ネットワークについてモデリングを行った結果を解説する。2.2複合体モデリングによって新規に予測されたモデルIntActとPDBのデータを組み合わせて得られたモデリング可能な相互作用ネットワークには、2,884個のヒトタンパク質と、それらの間の5,455の相互作用が含まれており、上に述べた方法によって3,197個の独立したヒトタンパク質複合体モデルが構築された(論文投稿中)。しかし、IntActに登録された相互作用のうち6%は、モデル構造上では直接相互作用せず、1個以上の別のタンパク質を介してして相互作用していた。IntActは様々な実験手法による相互作用データを収録しているが、免疫沈降法などによる実験では共沈降(あるタンパク質を抗体などで沈降した時に、同時に沈降するタンパク質を同定する)を指標とするため、間接的に相互作用する例が多数登録されていることに由来すると考えられる。最も大きい複合体は17量体であり、proteasomeの26Sサブユニットの一部であった。得られた複合体の平均サブユニット数は3.3で、55%(1,756/3,197)の複合体は2量体であった。2量体が多い理由は、全ヒトタンパク質の80%が、それぞれ1つしかインターフェースを持たないためである。全複合体モデルに存在するインターフェースを解析した結果、3,959個がユニークであり、このうち21%(970/3,959)はIntActに登録されていない新規の(モデリングにより予測された)インターフェースであった。また、複数のタンパク質と相互作用することができるオルタナティブインターフェースは全インターフェースの35%(1,370/3,959)にものぼることが示唆された。オルタナティブインターフェースは実験的に同定することが比較的困難であり、同時には相互作用することのできないタンパク質ペアなどの重要な情報を提供する。構築したモデルには、実験的に明らかにされている複合体構造をさらに拡張したものが含まれる。一例としてcyclinA2-cyclindependentkinase-CDKinhibitor1-ubiquitinligasecomplexの複合体モデルを図3に示した。図3.cyclinA2-cyclindependentkinase-CDKinhibitor1-ubiquitinligasecomplexモデルそれぞれのタンパク質は異なる色で示されている。丸で囲まれた部分がubiquitinligasecomplexである。CyclinA2は細胞周期に関わるタンパク質で、cyclindependentkinase(CDK)によってリン酸化されることで活性化し、細胞周期を進行させるトリガーになる。通常、CDKはCDKinhibitor1が結合することにより不活性化されているが、CDKinhibitor1は細胞周期依存的にubiquitinligasecomplexによってユビキチン化されproteasomeによって分解される。これによってCDKが活性化し、続けてcyclinA2がリン酸化され細胞周期が進行する。この過程においては、ubiquitinligasecomplexによってCDKinhibitorの天然変性領域(通常の状態で特定の立体構造を形成しないタンパク質領域)がユビキチン化を受けることが示唆されている。今回構築された図3の複合体モデルの部分構造は、これまでにも結晶構造解析の組み合わせモデルとして報告されているが[5]、本手法により網羅的にデータベースからの知識を組み合わせることで、さらに拡張が可能であることが示された。3.タンパク質複合体モデルへの疾患原因変異のマッピングとその解析次世代シークエンサー技術の目覚しい進展は、個人レベルでのゲノム配列解読を容易にし、これまで原因不明とされてきた様々な遺伝性疾患の責任遺伝子およびその変異の特定を可能とした。こうしたゲノムワイドな塩基配列の解析は、遺伝子上の変異と疾患の関連性を見つけ出す目的においては有用である。しかしその一方で、特定の遺伝子変異がどのようにして病気を引き起こすのかという、疾患の発症機序についての分子メカニズムはブラックボックスである場合が多い。また、こうした疾患原因変異情報の蓄積によって、同一遺伝子を責任遺伝子としながら、異なる表現型を持つ疾患が多く知られるようになってきており、遺伝子型と表現型との関連性を塩基配列レベルの解析のみから理解することは容易ではない。遺伝子機能を司るのは、多くの場合その遺伝子がコードするタンパク質である。我々は、疾患変異とタンパク質の立体構造、特に複合体構造との関係に着目して研究を進めている。3.1Mutation@AGlance疾患の原因となる遺伝子上の変異をタンパク質立体構造上に投影(位置を特定すること。以下マッピングと呼ぶ)することは、変異が遺伝子機能にどのような影響を与えるかについて、原子レベルで解析する上で有効な手段である。我々は、こうした解析を容易とするためのデータベースMutation@AGlanceを開発し公開している(http://harrier.nagahama-i-bio.ac.jp/mutation/)。このデータベースは、ヒトの遺伝性疾患の原因変異および疾患とは関連性のない一塩基バリアント(SNV)について、塩基配列、アミノ酸配列、タンパク質立体構造およびその複合体構造の各階層についてマッピングしたデータを可視化し、遺伝子の階層横断的な解析を可能とする[6]。Mutation@AGlanceを利用して、前節で解説した3,197個のヒトタンパク質複合体モデル上に疾患に関連するSNVによるアミノ酸変異をマッピングしたところ、複合体モデルに含まれるタンパク質領域にマッピングされたもののうち約20%(456/2,319)がインターフェースに存在した。このうち、モデリングによって新規に予測されたインターフェースに存在するものは、12%(54/456)に止まったが、単位面積当たりにマッピングされた数は、既知インターフェースと予測インターフェースでほぼ同等であった(10,000Å2あたり0.13個のSNVが存在する)。解析した487種類の疾患のうち、26種類の疾患に関連したSNVが複合体モデルのインターフェース領域にマッピングされた。さらにこのうち11種類は、新規に予測したインターフェースにマッピングされることがわかった。このことから、複合体構造におけるインターフェース破壊は疾患原因として無視できない存在であり、また複合体モデル構築が疾患原因の解析に有効であることが示唆される。3.2疾患の表現型と変異の立体構造的な特徴との相関さらにこのデータベースを利用して、同一責任遺伝子上の異なる変異によって異なる種類の疾患を引き起こす約260例に着目し、変異とタンパク質立体構造上の特徴について解析を行った。変異が引き起こす遺伝性疾患の遺伝様式の違いによって分類したところ、常染色体優性型(AD)の遺伝様式を示す変異は、タンパク質分子表面のアミノ酸残基に起こる場合が統計的に有意に多く、逆に、常染色体劣性型(AR)の変異部位はタンパク質の内部のアミノ酸残基に有意に多いという結果が得られた。我々を含む多くの研究グループによって、疾患との関連性のないSNVは、タンパク質立体構造上表面に多いことが示されているが[7,8]、ADが表面に多いという我々の結果はどのように解釈できるだろうか?そこで、タンパク質分子間のインターフェースに着目して、ヒトタンパク質複合体立体構造モデルと変異との関係について解析を進めた。すると、ADの表現型となる変異は、ARや疾患との関連を無視したSNV全体と比べて統計的有意にインターフェースのアミノ酸残基である場合が多いことが明らかとなった[9]。すなわち、(1)タンパク質内部に起きる変異は、タンパク質立体構造を壊すため、おそらく品質管理によって分解されることで、両方の対立遺伝子に変異が無い限り遺伝子異常が表現型として現れない。(2)タンパク質表面でインターフェースヘの変異は、おそらくタンパク質立体構造は壊さないで、タンパク質の分子間ネットワークに対してドミナントネガティブ効果を与える、という遺伝子変異と疾患形態との関連性がタンパク質立体構造モデルを通した解析によって見えてきた。3.3構造モデルによる新規疾患関連変異の評価これらの計算機手法やデータベースを利用した具体的な疾患関連変異の解析例として、京都大学大学院医学研究科(平家俊男教授ら)のグループとの共同研究による、アイカルディ・ゴーティエ症候群(Aicardi-Goutièressyndrome,AGS)患者から同定された新規責任遺伝子IFIH1のミスセンス変異とタンパク質立体構造および機能との関連性の解析を紹介する。AGSは発達遅滞、小頭症、頭蓋内石灰化を伴う遺伝性脳症であり、I型インターフェロン産生の充進によって誘導される自己炎症が疾患の原因と考えられている。責任遺伝子が末同定のAGS患者3人のエクソーム解析を行ったところ、3患者に共通してIFIH1遺伝子にそれぞれ異なるミスセンス変異が見出された。IFIH1遺伝子は細胞内の核酸受容体MDA5をコードしており、外来2本鎖RNAと結合しオリゴマーを形成することで、そのシグナルが下流に伝わることで、I型インターフェロン産生が充進することが知られている。我々はMDA5オリゴマー-RNAの複合体モデルを構築し、これら3種類のミスセンス変異をマッピングしたところ、RNA結合およびオリゴマー形成に直接影轟を与える部位に位置していることがわかり、これらの変異が疾患を引き起こす変異であることが予測された(図4)。患者由来の細胞を用いた実験によって、確かにこれらのミスセンス変異がMDA5の機能を充進していることが証明された[10]。図4.MDA5-RNA複合体モデル上のAGS原因アミノ酸変異エクソーム解析によって同定された疾患関連変異(図右)は、MDA5構造、2本鎖RNA(dsRNA)、電顕マップなどから構築された複合体モデル上でインターフェースにマッピングされる。4.おわりに解説したタンパク質相互作用ネットワークを用いた複合体モデリングにより、実験的には未知のタンパク質インターフェースが予測可能であり、それらの予測は未解明の分子メカニズムの解析につながる。この方法は、IntActやPDBなどのデータベースに含まれるデータ(知識)量が増加すればするほど、構築可能なモデルの数も加速度的に増加するため、将来にわたって良好なポジティブフィードバックが形成されることが期待できる。また、こうしたタンパク質立体構造および複合体モデルを用いた変異解析は、様々な遺伝性疾患における疾患メカニズムの理解につながるだけでなく、病気の治療に向けた創薬においても有用であると考えられる。例えば、先のAGSでは、変異MDA5の機能の異常亢進が原因と考えられることから、モデル上でMDA5のオリゴマー形成、あるいは2本鎖RNAとの結合を阻害する薬剤をデザインすることができれば、疾患の原因を抑えることができるかもしれない。複合体モデルはこのような薬剤ターゲットサイトの絞り込みに特に有用である。タンパク質複合体モデル立体構造に基づく創薬はまだ研究段階であるが、我々は、実験データとバイオインフォマティクスを統合して詳細に解析することによって、近い将来実用段階に近づくと確信している。謝辞ここで解説した研究は、創薬等ライフサイエンス研究支援基盤事業「超分子モデリングパイプラインの構築」の支援を受けて、多くの共同研究者との協力により推進されたものであり、関係各位、また、研究協力にご同意いただいた患者さんとご家族に感謝申し上げます。参考文献[1]Berman,H.M.,Westbrook,J.,Feng,Z.,Gilliland,G.,Bhat,T.N.,Weissig,H.,Shindyalov,I.N.,Bourne,P.E.TheProteinDataBank.NucleicAcidsRes.28,235–242(2000).[2]Orchard,S.,Ammari,M.,Aranda,B.,Breuza,L.,Briganti,L.,Broackes-Carter,F.,Campbell,N.H.,Chavali,G.,Chen,C.,del-Toro,N.,Duesbury,M.,Dumousseau,M.,Galeota,E.,Hinz,U.,Iannuccelli,M.,Jagannathan,S.,Jimenez,R.,Khadake,J.,Lagreid,A.,Licata,L.,Lovering,R.C.,Meldal,B.,Melidoni,A.N.,Milagros,M.,Peluso,D.,Perfetto,L.,Porras,P.,Raghunath,A.,Ricard-Blum,S.,Roechert,B.,Stutz,A.,Tognolli,M.,vanRoey,K.,Cesareni,G.,Hermjakob,H.TheMIntActproject–IntActasacommoncurationplatformfor11molecularinteractiondatabases.NucleicAcidsRes.42,D358–63(2014).[3]Chatr-aryamontri,A.,Ceol,A.,Montecchi-Palazzi,L.,Nardelli,G.,Schneider,M.V.,Castagnoli,L.,Cesareni,G.MINT:theMolecularINTeractiondatabase.NucleicAcidsRes.35,D572–574(2007).[4]Franceschini,A.,Szklarczyk,D.,Frankild,S.,Kuhn,M.,Simonovic,M.,Roth,A.,Lin,J.,Minguez,P.,Bork,P.,vonMering,C.,Jensen,L.J.STRINGv9.1:protein-proteininteractionnetworks,withincreasedcoverageandintegration.NucleicAcidsRes.41,D808–815(2013).[5]Hao,B.,Zheng,N.,Schulman,B.A.,Wu,G.,Miller,J.J.,Pagano,M.,Pavletich,N.P.StructuralbasisoftheCks1-dependentrecognitionofp27(Kip1)bytheSCF(Skp2)ubiquitinligase.Mol.Cell20,9–19(2005).[6]Hijikata,A.,Raju,R.,Keerthikumar,S.,Ramabadran,S.,Balakrishnan,L.,Ramadoss,S.K.,Pandey,A.,Mohan,S.,Ohara,O.Mutation@AGlance:anintegrativewebapplicationforanalysingmutationsfromhumangeneticdiseases.DNARes.17,197-208(2010).[7]Wang,Z.,Moult,J.SNPs,proteinstructure,anddisease.Hum.Mutat.17,263–70(2001).[8]Sunyaev,S.,Ramensky,V.,Bork,P.Towardsastructuralbasisofhumannon-synonymoussinglenucleotidepolymorphisms.TrendsGenet.16,198–200(2000).[9]土方敦司,小原收,「ヒト遺伝性疾患の構造バイオインフォマティクス」日本遺伝学会第86回大会(2013)[10]Oda,H.,Nakagawa,K.,Abe,J.,Awaya,T.,Funabiki,M.,Hijikata,A.,Nishikomori,R.,Funatsuka,M.,Ohshima,Y.,Sugawara,Y.,Yasumi,T.,Kato,H.,Shirai,T.,Ohara,O.,Fujita,T.,Heike,T.Aicardi-GoutieressyndromecausedbyIFIH1mutations.Am.J.Hum.Genet.,95,121-125(2014)./////CuttingEdge/////天然変性タンパク質の機能予測法について東京大学医科学研究所MunmeeDutta,AshwiniPatil,中井謙太1.はじめに筆者の浅学ゆえの誤解であればお許しいただきたいが、タンパク質の構造活性相関を研究する立場では、タンパク質が一定の三次元構造[1]をとっていることは自明とされているのではないだろうか。しかし、かれこれ20年程前から、生理的条件下でも一定の三次元構造をとらないタンパク質が次々と同定されるようになってきた。それらは、天然変性タンパク質(intrinsicallydisorderedprotein;IDP)と総称され、通常のタンパク質と比べて偏ったアミノ酸組成を持ち、また一定の立体構造をとり続けてはいないという性質そのものがしばしばその機能と結びついていることが特徴的である[2]。天然変性タンパク質はその構造全体が一定構造を持たないわけではなく、そのような部分は天然変性領域(intrinsicallydisorderedregion;IDR)に局在しており、また天然変性領域をもつタンパク質は真核生物に多く見られることが知られている[3]。天然変性領域は複数のタンパク質と相互作用するタンパク質に多く見られる[4,5]。このことは、異なる結合相手によって、変性領域がそのコンフォメーションを適合させていることによるものと考えられている[6]。最近のいくつかの報告によれば、天然変性タンパク質の中には、構造状態と変性状態間の秩序・無秩序転移を伴わず、柔軟な状態のままで相互作用することができるものもあるらしい[7]。天然変性タンパク質は、この柔軟性によって、転写制御・細胞内のシグナル伝達や調節パスウェイに関与している[8-10]。天然変性領域は、腫瘍抑制タンパク質p53やDNA修復タンパク質BRCA1のように、多くの疾病関連タンパク質にも見られる。天然変性領域はPTENタンパク質の例で見られるように、タンパク質やDNA、RNAと直接結合することで機能しているのかもしれない[11]。また、カルモジュリンの例で見られるように、異なる結合タンパク質と結合するときに固定構造ドメインの相対位置を調節するリンカーとして機能しているのかもしれない[12]。天然変性領域は、真核生物のタンパク質の約三分の一に存在するとも推定され、その機能の重要性からみても、決して例外として無視すべき存在ではなく、何とかしてその(一次)構造と機能との関係を理解して、機能予測法を開発することが望まれる。しかし、伝統的なタンパク質の機能予測法で用いられている方法の多く[13]は、固定構造を持たず、アミノ酸配列の進化的保存も明瞭でないことが多い天然変性タンパク質には適用不能と考えられる。そこで、本稿では、この困難な天然変性タンパク質の機能予測問題に対して行われている様々な試みを紹介する。まだまだ研究例も少なく、まとまった総説にはなっていないが、ここで紹介した内容が、少しでも構造活性相関研究者の参考になれば幸いである。2.天然変性タンパク質の機能予測上述のように、天然変性領域は、荷電性残基や極性残基に富み、疎水性残基や芳香性残基に乏しいといった偏ったアミノ酸組成で特徴付けられる[14]。ここ数年間に発表された研究によれば、変性領域の一次構造は、機能予測に利用できる情報を含んでいる。それらの研究で発表された代表的なツールを表1に示し、以下にその内容を紹介する。表1.天然変性タンパク質の機能予測や結合部位予測に利用できるツールツール予測対象ウェブサイト文献FFPred2.0機能http://bioinf.cs.ucl.ac.uk/psipred/[15]IDDNavigator機能http://sysimm.ifrec.osaka-u.ac.jp/disorder/beta.php[16]SLiMPrintsモチーフhttp://bioware.ucd.ie/~compass/biowareweb/Server_pages/slimprints.php[17]PepBindPred結合部位http://bioware.ucd.ie/~testing/biowareweb/Server_pages/pepbindpred.php[18]ANCHOR結合部位http://anchor.enzim.hu/[19]MoRFpredMoRF(注)http://biomine-ws.ece.ualberta.ca/MoRFpred/[20]MFSPSSMpredMoRFhttp://webapp.yama.info.waseda.ac.jp/fang/MoRFs.php[21]MoRFCHiBiMoRFhttp://www.chibi.ubc.ca/morf/[22]DISOPRED3変性の有無、結合部位http://bioinf.cs.ucl.ac.uk/disopred/[23]注:MolecularRecognitionFeatures(詳しくは本文2.2を参照のこと)2.1配列情報に基づく機能予測天然変性領域の配列がその機能に関する情報を担っているのは明らかである。Vuceticらは変性領域の異なるアミノ酸特性(彼らはフレーバーと呼んだ)と機能を関連付けた[24]。またLobleyらは変性領域の長さと一次構造上の位置情報を使って機能の予測を試みた[25]。この研究はFFPred2.0において拡張され、同じタンパク質内の構造をもつドメインの特徴をいくつも加えることで、予測の精度向上がなされた[15]。筆者らは最近、天然変性領域を持つタンパク質の機能が、その天然変性領域の化学的性質と相関づけられることを示した。たとえば、強い正電荷をもつ変性領域は転写因子に存在することが多く、極性残基に富んだ変性領域はプロテインキナーゼなどのシグナル伝達系タンパク質に多いことが観察された[26]。我々の開発した、変性領域のアミノ酸組成だけを用いて機能予測を行うIDDNavigatorというツールは、タンパク質の機能関連用語(ジーンオントロジー(GO)ターム)を統計的に有意に同定することができる[16]。タンパク質の機能の定義はいろいろなレベルでできて、たとえば多くの生物の遺伝子産物は、GOという用語群によって、体系的かつ階層的に記載(注釈付け)されている。ここではアミノ酸組成に基づいて、予測タンパク質とGOによる注釈付きのタンパク質集合との距離を計算し、近いものの中で頻出する機能用語を対象タンパク質の予測機能であるとした。その結果、ランダムレベルと比べて有意な予測が可能であった。さらに、最近の我々の研究では、予測精度を向上させるために、天然変性領域の様々な特徴、例えばアミノ酸組成、予測二次構造や疎水性、さらには進化的保存情報を用いて、単純ベイズ予測器を訓練し、変性領域を含むタンパク質の機能関連用語を予測した[27]。この方法はある程度の成功を収めた。しかしながら、得られた予測結果の精度は機能タイプによってかなりばらついた。すなわち、現段階ではどのような機能タンパク質にも有効な特徴集合を決めるのは難しく、異なる機能分類によって、異なる特徴集合を用いる必要があった。2.2結合部位の予測天然変性領域中の機能的結合部位が予測できればそのタンパク質の機能同定に有用であるという意味で、結合部位予測も機能予測法の一種と捉えることができる。その先駆的なツールの一つがANCHORで、変性領域の残基が別のタンパク質と結合するときに折れたたまれるのに必要な能力を予測している[19,28]。変性領域には、しばしばパートナータンパク質との結合に用いられる短い連続したモチーフ(shortlinearmotif;SLiM)が存在する[29]。それらは通常長さが3から10残基で、パートナータンパク質との一時的で弱い結合に関与する。また、進化的に保存されることが多く、しばしば翻訳後修飾の標的となる[30]。そのようなモチーフの例は、p53の変性領域内にも存在する。p53はN末領域とC末領域にそれぞれ大きな変性領域を持つ。C末領域の29残基はいくつかのタンパク質との結合に関与し、結合時には変性状態から構造状態への転移を伴う(図1)。この領域が結合に伴って形成する構造は転移を促す結合パートナーによって異なる。すなわち多くの場合はコイルドコイルコンフォメーションをとるが、S100Bタンパク質と結合するときにはヘリックスコンフォメーションをとる(図1B)。p53が様々なターゲットタンパク質と結合するのに用いられるインターフェース部のアミノ酸配列アラインメントから見て取れるように、パートナーとの結合に用いられるのは大きく分けて3箇所の残基群であるようである(図2).図1.様々なタンパク質と結合したp53のC末端領域。p53は赤いリボンとして示し、結合パートナーは灰色の空間充填モデルで示している。(A)CREB結合タンパク質CBP(1JSP:PDB登録名),(B)S100Bタンパク質(1DT7),(C)NAD依存デアセチラーゼSir2(1MA3),(D)サイクリンA2(1H26,CDK2は非表示),(E)ヒストンリジン-メチルトランスフェラーゼSETD7(1XQH),(F)ユビキチンC末端ヒドロラーゼ7USP7(2FOJ)。各図のスケールは揃えられていない。図2.p53のC末端ドメイン領域のアラインメント。それぞれのターゲットタンパク質との結合に係る残基のみを示している。相互作用残基は赤で表示している。SLiMPrintsは、上述の変性領域中のモチーフを配列の保存に基づいて予測するツールである[17]。しかし、それらのモチーフの出現頻度を考えると、それらのすべてに明瞭な保存は期待できず、従ってその予測は容易ではない。そこで、変性領域の配列、予測二次構造、そしてドッキングスコアを組み合わせることで、変性領域中の結合部位に対応するペプチドを予測するPepBindPredというツールも開発されている[18]。天然変性領域のパートナーとの結合の特徴付けには、短い配列モチーフばかりでなく、分子認識特性(molecularrecognitionfeature;MoRF)も用いられる。MoRFとは天然変性領域において、ターゲットタンパク質の認識や結合に際して、変性状態から構造状態への転移を受ける配列上連続した領域のことである[31]。MoRFpredはMoRFを予測するために、変性領域の折れたたみ能力を、アミノ酸の特性、物理化学的特性、その他B因子や溶媒露出度などの性質を用いている[20]。MFSPSSMpredは、MoRFと周辺の配列の位置特異的スコア行列を使ってMoRFを同定する[21]。もう一つ最近発表されたツールMoRFCHiBiは、やはりMoRFとその周囲の配列の特異性を利用している[22]。変性タンパク質の予測ツールであるDISOPRED3は今や変性領域だけでなく、その中のタンパク質結合部位まで予測するが、それには変性領域の進化プロフィールと配列的特徴を用いている[23]。以上のように、変性領域中の機能部位や、ある程度まではその機能までを予測するための方法やツールがいくつか利用可能である。3.考察現在、利用可能なタンパク質の機能予測法の多くは、機能部位が固定構造ドメインにあるものを対象としている。これは、秩序だった構造ドメインの方が、特徴付けも容易で、アミノ酸配列レベルの進化的保存度が高く、配列や構造の相同性を用いた機能の予測がしやすいことを考えると、当然であろう。逆に言えば、固定した三次元構造を持たず、アミノ酸配列も保存されていない天然変性タンパク質に、これまで開発されてきた機能予測の技術を応用することは困難であるし、そもそもどのようにして機能の特異性を担保しているのかが不思議でもある。しかしながら、天然変性領域は、これをもつタンパク質の機能とも関連付けられる、独特のアミノ酸組成を持っている。多くの変性領域はまた、機能部位として働く、短く連続したモチーフをもっている。変性領域中で折れたたまれる能力を持っていそうな短い領域を検索することはある程度可能であり、そのような領域は、結合部位やおそらく機能部位の候補となる。これらの特徴はすべて、変性領域やもとのタンパク質の機能を推定することに利用できる。ただし、天然変性領域の配列的特徴と機能の関連性に関する研究は、有望ではあるが、機能の詳細を予測できるレベルにはない。同様に、今や変性領域が一時的もしくは安定的にターゲットタンパク質と結合する候補部位を同定することができるが、その部位に結合する相手のタンパク質(群)を予測したり、結合によってどのような機能が生じるのかを予測したりすることは難しい。結合相手の予測には、大規模タンパク質間相互作用実験の結果を併用することが有用であろう。また、機能既知の天然変性領域内の機能部位を記載する努力がなされており、そのようなデータが十分に蓄積すれば、既知部位との類似性を頼りに予測を行うのに役立つことであろう。今後、総合的な機能予測能を高めていくためには、変性ドメインのまわりの通常構造領域の情報(当然、得られる情報量は多い)を取り入れていくことも有望と思われる。とにかく、予測能力向上には、いろいろな特徴を組み合わせていく必要があるだろう。4.結語天然変性タンパク質は細胞内で重要な機能を果たしている。従って、その機能を同定するために、そのアミノ酸配列から情報を抽出する研究は重要である。この研究分野の最近の進歩は著しいが、現在の実験的、情報科学的方法論がまだまだ十分な解析を行うには未熟なため、いくつもの課題が残されている。天然変性タンパク質に関する新しい予測法を開発したり、実験情報を収集したりする研究には、情報研究者と実験研究者のより一層の協力と参画が求められている。その意味で、本稿が構造活性相関を研究される皆様にとって、この分野に少しでも興味をもっていただく一助となれば幸いである。謝辞本稿執筆の機会をくださった日本薬学会構造活性相関部会に謝意を表したい。参考文献[1]RosePW,PrlićA,BiC,BluhmWF,ChristieCH,DuttaS,GreenRK,GoodsellDS,WestbrookJD,WooJ,etal:TheRCSBProteinDataBank:viewsofstructuralbiologyforbasicandappliedresearchandeducation.NucleicAcidsRes2015,43:D345-356.[2]WrightPE,DysonHJ:Intrinsicallyunstructuredproteins:re-assessingtheproteinstructure-functionparadigm.JMolBiol1999,293:321-331.[3]WardJJ,SodhiJS,McGuffinLJ,BuxtonBF,JonesDT:Predictionandfunctionalanalysisofnativedisorderinproteinsfromthethreekingdomsoflife.JMolBiol2004,337:635-645.[4]DunkerAK,CorteseMS,RomeroP,IakouchevaLM,UverskyVN:Flexiblenets.Therolesofintrinsicdisorderinproteininteractionnetworks.FEBSJournal2005,272:5129-5148.[5]PatilA,NakamuraH:Disordereddomainsandhighsurfacechargeconferhubswiththeabilitytointeractwithmultipleproteinsininteractionnetworks.FEBSLetters2006,580:2041-2045.[6]DysonHJ,WrightPE:Couplingoffoldingandbindingforunstructuredproteins.CurrOpinStructBiol2002,12:54-60.[7]MittagT,MarshJ,GrishaevA,OrlickyS,LinH,SicheriF,TyersM,Forman-KayJD:Structure/functionimplicationsinadynamiccomplexoftheintrinsicallydisorderedSic1withtheCdc4subunitofanSCFubiquitinligase.Structure2010,18:494-506.[8]IakouchevaLM,BrownCJ,LawsonJD,ObradovicZ,DunkerAK:Intrinsicdisorderincell-signalingandcancer-associatedproteins.JMolBiol2002,323:573-584.[9]FongJH,ShoemakerBA,PanchenkoAR:Intrinsicproteindisorderinhumanpathways.MolBiosyst2012,8:320-326.[10]WrightPE,DysonHJ:Intrinsicallydisorderedproteinsincellularsignallingandregulation.NatRevMolCellBiol2015,16:18-29.[11]MalaneyP,PathakRR,XueB,UverskyVN,DavéV:IntrinsicdisorderinPTENanditsinteractomeconfersstructuralplasticityandfunctionalversatility.SciRep2013,3:2035.[12]PatilA,KinoshitaK,NakamuraH:Hubpromiscuityinprotein-proteininteractionnetworks.InternationalJournalofMolecularSciences2010,11:1930-1943.[13]RadivojacP,ClarkWT,OronTR,SchnoesAM,WittkopT,SokolovA,GraimK,FunkC,VerspoorK,Ben-HurA,etal:Alarge-scaleevaluationofcomputationalproteinfunctionprediction.NatMethods2013,10:221-227.[14]BrackenC,IakouchevaLM,RomeroPR,DunkerAK:Combiningprediction,computationandexperimentforthecharacterizationofproteindisorder.CurrOpinStructBiol2004,14:570-576.[15]MinneciF,PiovesanD,CozzettoD,JonesDT:FFPred2.0:improvedhomology-independentpredictionofgeneontologytermsforeukaryoticproteinsequences.PLoSOne2013,8:e63754.[16]PatilA,TeraguchiS,DinhH,NakaiK,StandleyDM:FunctionalannotationofintrinsicallydisordereddomainsbytheiraminoacidcontentusingIDDnavigator.PacSympBiocomput2012:164-175.[17]DaveyNE,CowanJL,ShieldsDC,GibsonTJ,ColdwellMJ,EdwardsRJ:SLiMPrints:conservation-baseddiscoveryoffunctionalmotiffingerprintsinintrinsicallydisorderedproteinregions.NucleicAcidsRes2012,40:10628-10641.[18]KhanW,DuffyF,PollastriG,ShieldsDC,MooneyC:Predictingbindingwithindisorderedproteinregionstostructurallycharacterisedpeptide-bindingdomains.PLoSOne2013,8:e72838.[19]DosztányiZ,MészárosB,SimonI:ANCHOR:webserverforpredictingproteinbindingregionsindisorderedproteins.Bioinformatics2009,25:2745-2746.[20]DisfaniFM,HsuWL,MiziantyMJ,OldfieldCJ,XueB,DunkerAK,UverskyVN,KurganL:MoRFpred,acomputationaltoolforsequence-basedpredictionandcharacterizationofshortdisorder-to-ordertransitioningbindingregionsinproteins.Bioinformatics2012,28:i75-83.[21]FangC,NoguchiT,TominagaD,YamanaH:MFSPSSMpred:identifyingshortdisorder-to-orderbindingregionsindisorderedproteinsbasedoncontextuallocalevolutionaryconservation.BMCBioinformatics2013,14:300.[22]MalhisN,GsponerJ:ComputationalidentificationofMoRFsinproteinsequences.BioinformaticsEpub2015Jan30.(doi:10.1093/bioinformatics/btv060)[23]JonesDT,CozzettoD:DISOPRED3:precisedisorderedregionpredictionswithannotatedprotein-bindingactivity.Bioinformatics2015,31:857-863.[24]VuceticS,BrownCJ,DunkerAK,ObradovicZ:Flavorsofproteindisorder.Proteins2003,52:573-584.[25]LobleyA,SwindellsMB,OrengoCA,JonesDT:Inferringfunctionusingpatternsofnativedisorderinproteins.PLoSComputBiol2007,3:e162.[26]MoesaHA,WakabayashiS,NakaiK,PatilA:Chemicalcompositionismaintainedinpoorlyconservedintrinsicallydisorderedregionsandsuggestsameansfortheirclassification.MolBiosyst2012,8:3262-3273.[27]SharmaA,DehzangiA,LyonsJ,ImotoS,MiyanoS,NakaiK,PatilA:Evaluationofsequencefeaturesfromintrinsicallydisorderedregionsfortheestimationofproteinfunction.PLoSOne2014,9:e89890.[28]MészárosB,SimonI,DosztányiZ:Predictionofproteinbindingregionsindisorderedproteins.PLoSComputBiol2009,5:e1000376.[29]NguyenBaAN,YehBJ,vanDykD,DavidsonAR,AndrewsBJ,WeissEL,MosesAM:Proteome-widediscoveryofevolutionaryconservedsequencesindisorderedregions.SciSignal2012,5:rs1.[30]TompaP,DaveyNE,GibsonTJ,BabuMM:amillionpeptidemotifsforthemolecularbiologist.MolecularCell2014,55:161-169.[31]MohanA,OldfieldCJ,RadivojacP,VacicV,CorteseMS,DunkerAK,UverskyVN:Analysisofmolecularrecognitionfeatures(MoRFs).JMolBiol2006,362:1043-1059./////CuttingEdge/////PoSSuM:ポケット類似性情報に基づく合理的薬剤設計支援に向けて株式会社レベルファイブ池田和由産業技術総合研究所富井健太郎1.はじめにタンパク質の立体構造情報の近年の飛躍的な増加に伴い、基質結合部位構造の比較が、生物学的等価体の発見や既存医薬品の再利用(ドラッグリポジショニング)、副作用(オフ・ターゲット)予測などに結びつく例が報告されてきている[1]。こうしたことから、タンパク質立体構造データベース(PDB)中に存在する大量の既知および未知基質結合部位構造を網羅的に比較・分類することは、タンパク質と薬剤の結合に関する重要な特徴発見を一層促すものと期待される。しかし大量の結合部位を正攻法で網羅的に比較することは、部位間の類似度計算に多大な時間を要するため、これまで実現困難であった。そこでわれわれは、結合部位の構造情報の大胆な粗視化と高速なソートアルゴリズムを組み合わせることで、100万のオーダーの結合部位の網羅的比較を可能にし、その結果をまとめたデータベースPoSSuM(PocketSimilaritySearchusingMulti-Sketches)を開発・公開した[2,3]。2011年にリリースしたPoSSuMは、PDBのエントリー増大などに伴い、現在では550万の既知および未知結合部位の網羅的比較から、4,900万の類似結合部位ペアを収載したデータベースとなっている[4]。最新の更新では、ドラッグリポジショニング、副作用予測などを意識した新たなデータベースPoSSuMdsをリリースしたので、これらデータベースの概要について紹介する。2.網羅的比較法とPoSSuM/PoSSuMdsデータベース2.1最近傍探索アルゴリズムを適用した全ペア類似度検索先に触れたように、例えば通常良く用いられる構造の重ね合わせ法などによる大量の結合部位の網羅的比較は、部位間の類似度計算に多大な時間を要するため一般に困難である。この問題の克服にあたり、われわれは「最近傍探索アルゴリズム」を適用した。比較あるいは類似性検索を行いたい場合、対象の近傍データは重要であるが、対象から非常に離れた(非類似)データはそもそも比較を行う意味があまりない。そこで、高次元空間上の局所的な(あるいは近傍の)性質が良く保存されるような低次元への射影である局所性鋭敏型ハッシュ(localitysensitivehashing)を利用した。手順は以下の通りである。まず、SiteAlignを開発したRognanらのグループの先行研究[5]に倣い、基質結合部位をその構成残基(ここではCα原子で代表)を頂点とする三角形に分割し、各残基が備えている様々な性質(基質との結合に重要と考えられる物理化学的性質や二次構造情報など)とCα原子間距離に基づき1,540種類に分類された三角形の出現頻度ベクトルに変換する(図1)。Rognanらのグループは、これらのベクトルのなす角、即ちコサイン距離を結合部位間の類似度としたが、この総当たりの計算は一般に多大な時間を要することは既に述べたとおりである。そこで、われわれは更なる近似表現を用いた。つまり、この1,540次元空間上で個々の基質結合部位に対応する各点を、高次元空間での局所的な性質が良く保存されるような低次元への射影である局所性鋭敏型ハッシュを用い(具体的には高次元空間で任意の超平面のどちら側に位置しているかにより0か1の符号を割り当てるランダム射影を繰り返し)、32次元のビットベクトル(=2値の数値列)に変換する。直感的に述べると、類似した結合部位、つまり高次元空間で近傍にある二点は、類似の数値列として表現される。低次元での近似表現の利用によって高速なソートアルゴリズムの一つである複合ソート法[6]の利用が可能となり、生成された二値の数値列の限定されたハミング距離での近傍探索が行われ、性質の良く似た基質結合部位ペアの高速かつ効率的な検出が可能となる。これにより、PDBに登録されている既知の基質結合部位のみならず、タンパク質の立体構造情報から計算[7]される潜在的な基質結合部位を加えた100万のオーダーの基質結合部位の網羅的比較が実時間で可能となる。(A)(B)図1.PoSSuMデータベース構築に用いた基質結合部位構造情報の粗視化の概念図(前ページ)A)構成残基のCa原子を頂点とする口角形ヘの分割と、各残基の性質およびCa原子間距離に基づき分類された口角形の出現頻度ベクトルヘの変換。各頂点のラベルは、基質との結合に重要と考えられる(荷電残基であるか否か、芳香族環をもつか否かなどの)アミノ酸の物理化学的性質や残基の二次構造情報などに応じてA”-‘Dの4種類が割り当てられ、Ca原子間距離のラベルは、一辺13.6Aまでの距離が(最少の距離区分を除き)2.2A刻みでa”-‘eの5種類に分類される。例えば、口頂点が(A,A,A)のラベルをもち、口辺が(a,a,a)の距離区分にある口角形が一つ観測される時、w1=1となる。こうした手順に従い、任意の基質結合部位はD(=1,540)次元のベクトルとして表される。文献[2]の図2を改変。B)局所性鋭敏型ハッシュを用いたビットベクトルヘの変換。1,540次元空間上で個々の基質結合部位に対応する各点xi(i=1,2,!!!,n;ここでnは部位数)を、ランダム射影によりQ(=32)次元のビットベクトルに変換する。現在のPoSSuMでは、アミノ酸の多様な性質のうちどういった性質に着目するかに応じて、8種類の異なる口角形の分類法(X1,X2,!!!,X8)を用いている。文献[2]の図6を改変。2.22PoSSuMの概要現在PoSSuM(http://possum.cbrc.jp/PoSSuM/)には、PDBから抽出された30万余の低分子化合物の結合部位とタンパク質の立体構造情報からポケット検出プログラムGhecom[7]により計算された520万超の基質結合部位候補の合計550万部位の網羅的比較から検索された、約4,900万の類似結合部位ペアのデータが収載されている。前節で紹介した方法で計算された網羅的比較の結果がSQLデータベースとしてまとめられており、”SearchK”と称するモードでは、既知結合部位情報(PDBIDと3文字表記の基質名)を入力として、その部位と閾値以上の類似度をもつ既知および推定された結合部位のリストを取得可能である。このリストには、タンパク質の立体構造分類データベースであるSCOPやCATH、EC番号およびGOタームに関する情報が付加されており、部位ペアの属性の異同確認が可能である。また、部位相互の実際の構造の重ね合わせも閲覧可能である。これとは逆に、未知結合部位の類似部位を知りたい場合、”SearchP”というモードで、対象タンパク質のPDBIDを入力として”SearchK”の場合と同様の情報を取得可能である。文献[2]では、こうしたデータに含まれる未知結合部位と既知結合部位の類似性に基づいた、構造ゲノムプロジェクトなどで決定された機能未知タンパク質に対する基質および結合モードの予測例が示されている。なお”SearchP”では、知りたいタンパク質の立体構造がPDBにな図2.PoSSuMのトップページ(http://possum.cbrc.jp/PoSSuM/)い場合でも、PDBフォーマットの構造情報を入力すると、その情報を基にGhecomを用いて計算されたポケットについて、同様の情報を取得可能である。2.33PoSSuMds:低分子薬への注目とケミカルゲノムデータへのリンクの意義前節で紹介した結果を踏まえ、また、冒頭に述べたようなトレンド[1]から、われわれは、ドラッグリポジショニングやオフ・ターゲット予測などヘの応用を意識し、PDBの低分子医薬品結合部位に焦点をあてたデータベースPoSSuMds(http://possum.cbrc.jp/PoSSuM/drug_search/)の開発と公開を行った[4]。低分子医薬品は、医薬品全体の売り上げ中の半分以上を占めている重要な医薬品分子であり、一般的に分子量が小さく(1970年代以降の低分子薬の平均分子量は391)、膜透過性が高いものも多く、生体内の動態性質も良く、患者負担が低い経口投与にし易い性質がある。近年、ChEMBL[8]、PubChem[9]といったオープンケミカルゲノム情報の増加は目覚ましい。ChEMBLの最新版(2015年2月リリースversion20)では、トータルの生物活性値数が1,352万件、アッセイ数が114万件、このうちタンパク質をターゲットとするものが全体の56%を占める。化合物1分子あたりのターゲット数はおおよそ4個であり、複数のターゲットに結合活性をもつものも多く、5個以上のターゲットに結合する化合物は全体の27%存在する。図3.ChEMBL中のターゲットに存在するタンパク質の割合(左図)と複数のターゲットに結合する化合物数(右図)ChEMBL中のタンパク質と基質の結合相互作用を観察すると、進化上あるいは全体構造をみても関係の推定できないタンパク質に、同一(あるいは非常に類似した)化合物が結合している例が多くあることに気づく。これらの低分子活性情報は、タンパク質の基質結合部位の情報と関連付けることによって、タンパク質機能とのより直接的な議論が可能になり、低分子が結合可能なターゲットの発見やドラックリポジショニングヘの応用が期待される。ドラックリポジショニングでは、すでに安全性、動態物性が臨床段階で検証済みであり、過去の医薬品開発情報が豊富に蓄積されている低分子経口医薬品がその中心である。今回われわれは、PoSSuMデータベースに登録されている結合低分子(既知基質)についての[A]ChEMBLの化合物情報ヘのリンク、および[B]ChEMBLのアッセイデータヘのリンクを行った[4]。手順は、以下の通りである。[A]において、まずPoSSuMから既知基質を抽出し、その基質構造とChEMBL中の化合物とのマッチングをInChIKeyを用いて行った。ChEMBLでは、化合物構造の登録StandardInChI(http://www.iupac.org/home/publications/e-resources/inchi.html)を用いているため、そのハッシュであるInChIKeyを使用することで高速な構造検索が可能である(現在はUniChem(https://www.ebi.ac.uk/unichem/)を使うとより容易であることを付言しておく)。2014年8月現在、PoSSuM中の30万余の既知基質結合部位のうち、低分子経口医薬品の結合部位は、0.86%の2,595個であり、ユニークな低分子薬数は194個であった。また、PoSSuM中でこれらの結合部位と類似するポケットは26,509個検出された。複数のターゲットに結合活性を有する低分子薬の存在や、同一化合物の多様なタンパク質との結合例については既に述べた通りである。こうした現象を理解するために、また、低分子薬が、その結合部位に類似した他の結合部位にも親和性を示す可能性があることを支持する一つのエビデンスとなりえると考え、ChEMBLにおいてクエリの基質とターゲットのタンパク質との生物活性情報の有無を調べた。ここで、[B]におけるPoSSuMデータからChEMBLのアッセイ情報ヘのリンクは、PoSSuMの中のタンパク質とChEMBLのターゲット(単一タンパク質)をUniprotIDでマッチングを行った。なお、今回われわれは、医薬基盤研が開発した統合データウェアハウスTargetMine(http://targetmine.nibio.go.jp)[10]を使用した。この結果、PoSSuM中に存在する上記26,509個の既知低分子経口薬の類似結合サイトで、クエリ化合物と生物活性があるものが存在することがわかった。次節にその例を示す。3.結合部位の類似性とChEMBLアッセイデータの対応例ここでは文献[4]でとりあげた例について紹介する。慢性骨髄性白血病などの治療薬であるイマチニブ(商品名:グリベック)はチロシンキナーゼ阻害薬であり、イマチニブとチロシンキナーゼの共結晶構造も決定されている。PoSSuMでは、BCR-ABL1チロシンキナーゼのイマチニブ結合部位とtypeIIホスファチジルイノシトール4-リン酸5-キナーゼ(PIP5K)のポケットの類似性が検出された(図4)。チロシンキナーゼはタンパク質リン酸化酵素(EC#:2.7.10.2)であり、PIP5Kはリン脂質リン酸化酵素(EC#:2.7.1.149)である。両者は、酵素反応が異なり、また異なるドメイン構造(PfamではPF07714とPF01504)およびフォールド(CATHではPhosphorylaseKinase;domain1&Transferase(Phosphotransferase);domain1とPhosphatidylinositolPhosphateKinaseIIBeta)を持つが、PoSSuMでは類似性を検出した。実際に、2つの結合部位のRMSDは2.71Aであり、相互作用する位置のアミノ酸残基(K271とK152、286Eと158D)も図4.PoSSuM中で低分子薬(STI)と類似検出されたポケットChEMBLに生物活性情報が存在する(Assay=Yes、下図)保存されており、これはPoSSuMが、ポケットの形状のみならず、残基の物理化学的特徴などを考慮して類似性を検出できていることを示している。PIP5K(PDBID:2GK9)の結晶構造には基質は存在しないが、前節で述べたChEMBLのアッセイ情報(イマチニブとPIP5Kの複合体解離定数Kd値380nM)が存在し、PoSSuMで検出されたイマチニブ結合部位とPIP5Kのポケットの類似性が実際の活性予測に有益であることを示唆するものであった。4.結語近年、ドラッグリポジショニングやオフ・ターゲット予測などの創薬研究において、基質結合部位構造の比較に基づく手法の存在感が、構造情報の蓄積とも相まって、増してきている。しかしながら、われわれの手法も含め、スクリーニング効率にはまだ改善の余地があると考えられる。われわれの手法の特長の一つである、基質結合部位が備えている様々な性質(幾何学的性質、アミノ酸の属性、二次構造など)の特徴抽出法を修正することで、計算機によるスクリーニング効率の更なる改善が可能かどうか検証を進めたいと考えている。一方、アッセイやそのターゲットのアノテーションに関しても一層の工夫が必要である。現状ChEMBLの活性結合情報は、タンパク質レベルでの基質相互作用が主である。これらをドメインレベル[11](さらに結合部位レベル)でのアノテーションや活性値との関連付けすることで、類似結合部位の基質情報からより高活性をもつ化合物構造との比較も可能になる。またPoSSuMに収載されているデータは、既知および未知結合部位の網羅的比較から得られるものであることから、ポリファーマコロジーの視点とも合致するため[12]、この方面の利用可能性も検証したいと考えている。今後益々タンパク質の立体構造データの増加が見込まれる状況を鑑みても、計算機を用いた結合部位の網羅的比較は、創薬研究においてもより一層その重要性を増すものと考えられる。謝辞本研究推進の要となった伊東純一博士、ご協力頂いた田部井靖生博士、清水佳奈主任研究員、東北大学山田和範先生、東京大学津田宏治先生、医薬基盤研究所水口賢司先生および関係の皆様に感謝申し上げます。本研究の一部は、JSPS科研費、最先端研究開発支援プログラム、厚生労働省科研費および文部科学省創薬等支援技術基盤プラットフォームの助成を受けたものです。参考文献[1]Konc,J.andJanežič,D.Bindingsitecomparisonforfunctionpredictionandpharmaceuticaldiscovery,Curr.Opin.Struct.Biol.,25,34-39(2014).[2]Ito,J.etal.PDB-scaleanalysisofknownandputativeligand-bindingsiteswithstructuralsketches,Proteins,80,747-763(2012).[3]Ito,J.etal.PoSSuM:adatabaseofsimilarprotein-ligandbindingandputativepockets,NucleicAcidsRes.,40,D541-D548(2012).[4]Ito,J.etal.PoSSuMv.2.0:dataupdateandanewfunctionforinvestigatingligandanalogsandtargetproteinsofsmall-moleculedrugs,NucleicAcidsRes.,43,D392-D398(2015).[5]Weill,N.andRognan,D.Alignment-freeultra-high-throughputcomparisonofdruggableprotein−ligandbindingsites,J.Chem.Inf.Model.,50,123-135(2010).[6]Tabei,Y.etal.Singleversusmultiplesortingforallpairssimilaritysearch,InSugiyama,M.andYang,Q.ed.Proceedingsof2ndAsianConferenceonMachineLearning(ACML2010),JMLRWorkshopandConferenceProceedings,13,145-160(2010).[7]Kawabata,T.Detectionofmultiscalepocketsonproteinsurfacesusingmathematicalmorphology.Proteins,78,1195-1211(2010).[8]Bento,A.P.etal.TheChEMBLbioactivitydatabase:anupdate,NucleicAcidsRes.,42,D1083-D1090(2014).[9]Wang,Y.etal.PubChemBioAssay:2014update.NucleicAcidsRes.,42,D1075-D1082(2014).[10]Chen,Y.-A.etal.TargetMine,anintegrateddatawarehouseforcandidategeneprioritisationandtargetdiscovery,PLoSONE,6,e17844,(2011).[11]Kruger,F.A.etal.PPDMs—aresourceformappingsmallmoleculebioactivitiesfromChEMBLtoPfam-Aproteindomains.Bioinformatics,31,776-778(2015).[12]Duran-Frigola,M.etal.Structuralsystemspharmacology:theroleof3Dstructuresinnext-generationdrugdevelopment,Chem.Biol.,20,674-684(2013)./////SARPresentationAward/////