上海生物信息技術研究中心主任李亦學的“科研數據共享之夢”已做了13年。但在近日舉行的首屆金橋產業技術創新會議上,當記者向他問及相關進展時,聽到的卻是一聲嘆息。
13年前,“大數據”尚未被任何字典收錄,而今卻被公認是全球生命科學研究的核心工具。李亦學告訴記者,科研數據難以共享已成為國內生命科學研究的一大障礙;而在大數據時代,其負面效應還可能被繼續放大。
李亦學透露,國內一批院士和重量級專家正在起草一份報告,建議國家借鑒美國、歐洲、日本等的做法,建立國家級生命科學數據庫,從而打破共享瓶頸。作為該調研報告的參與人,李亦學表示,在技術上,共享“不存在任何障礙”,國家應盡早落子布局。
只給看論文,無法看數據
美國是生命科學大數據產出和應用的領先者,不僅數據量和分析技術領先,而且在數據共享方面也是如此。
李亦學告訴記者,美國**生物技術信息中心(NCBI)存儲了分子生物學、生物化學、遺傳學領域的海量數據,一大批計算機專家和生物學家維護著這個龐大的數據庫和自動分析系統。這個平臺對支撐起美國在生命科學領域的地位至關重要。NCBI的數據是科學家無償提供的。根據規定,美國科學家要想拿到**經費,必須在申請課題時就承諾在課題完成后,將詳細的研究數據提供給NCBI;如果違背承諾,這名研究者將被列入黑名單,可能再也無法得到資助。這是NCBI獲得大量數據的根本保證。
李亦學說,國內的**科研項目一直沒有強制性的數據公開和共享要求。生命科學的數據零散地掌握在各個科研單位和研究小組內部,對國家的科研投入來說,這是一種巨大的浪費。
據了解,在我國,這樣的現象時有發生:國家向某個重大研究課題投入巨資,支持其從基因組層面研究若干重要的遺傳疾病。最終,雖然該研究發表了一系列高水平論文,但卻從未將詳細數據公開。
李亦學認為,這樣的研究本可以整體提升中國相關領域學術水平,但“只給看論文、無法看數據”的做法,極大限制了國家級課題的帶動效應。
一輩子的難題,幾個月解決
在生命科學領域引入大數據工具,將給研究帶來極大便利。科學家用傳統方法可能要花一輩子才能解決的難題,大數據可能只要幾個月就能找到答案。
一個典型案例是“腓骨肌萎縮癥(CMT)”的研究。這是一種常見的遺傳性神經系統疾病,患者最初會感到四肢無力,隨后逐步惡化,最終可能終身離不開輪椅。
CMT早就被認為與基因突變有關,但全球科學家尋找致病基因花了20多年,始終不得要領。不過就在兩三年前,美國一個小組對一位CMT病人連同他的10多位親屬進行全基因組測序,隨后對所獲得的數百GB的數據進行了“簡單的比對分析”,很快就精確定位了那條致病基因和發生突變的位點。
李亦學表示,能夠獲得和整合數據,然后再進行快速和精準的分析,已成為生命科學研究的關鍵。目前,中國已成為世界領先的不斷產生生物學與生物醫學大數據的國家。然而,中國生命科學的數據共享卻與發達國家差距巨大。他判斷說,國內課題組之間的數據共享一直是一個“小概率事件”。
李亦學13年前回國,曾經的理想是建立具有國家權威的公益性的生命科學數據中心,推動國內的生命科學研究數據共享。但迄今進展不大,這讓他無比遺憾。
科研數據要當成戰略資源
最近,國內一批院士和重量級專家正聯名起草一份調研報告,希望能在國內也建立一個類似NCBI的國家級生命科學數據庫。這份報告將在今年完成并提交。
最讓專家們揪心的,不僅是數據不共享將給國家創新體系帶來損失,更在于“如果有一天,NCBI不再與中國科學家共享數據,我們怎么辦?”
NCBI向全球免費提供數據。李亦學說,目前,所有的訪問量中,來自中國科學家的占了相當大的份額。一旦NCBI向中國關上大門,一些院士的判斷是:“中國生命科學研究可能倒退20年。”
在大數據時代,數據就如石油一般,是國家的戰略資源。李亦學認為,正因為如此,必須由國家出面,建立科研數據共享的機制和環境。而目前,哪怕**對所資助的課題提出數據共享的強制性要求,科學家也不知道該去哪兒共享。
在生命科學領域,國際學術界有一個不成文的規定:要想在頂級刊物發表論文,科學家必須共享其實驗數據,而且大都必須將數據遞交到NCBI的數據庫體系。李亦學說,因此,在NCBI的數據庫,由中國科學家提供的數據占了不小比例。這種“國內數據、國外整合”的做法不合理,但也表明在國內推動數據共享存在可操作性。