龐大的收藏 中世紀猶太手稿 眾所周知,開羅藏經閣正因人工智慧而迎來關鍵時刻。幾十年來,人們只能輕易查閱其中的一小部分資料,而如今,人工智慧的出現改變了這一切。 大規模數位化 文本辨識系統正真正開始向研究人員和公眾開放這獨特的檔案庫。
直到最近,這對語言學家和歷史學家來說似乎還是一個夢想——就是能夠… 搜尋、閱讀和比較 將數十萬份中世紀希伯來文殘片透過任何電腦存取的想法已成為現實。借助以色列國家圖書館的Ktiv平台和MiDRASH程序,幾乎所有藏經閣殘片的初步轉錄工作已經完成,目前正在進行修訂、完善和公開出版的準備工作。
一份龐大的中世紀檔案,終於可以解讀了
電話 開羅藏經閣 它被認為是世界上保存最完好、最豐富的猶太中世紀文獻收藏。近千年來,埃及首都的猶太社群將宗教、法律、商業和文學文獻存放於此。由於秉持著不以神之名銷毀文獻的傳統,這些文獻無法被隨意丟棄。最終,這些文獻匯集成冊,如今估計數量約為[數字缺失]。 400.000個片段很大程度得益於埃及乾燥的氣候而得以保存。
儘管這批藏品非常重要,但其使用率卻很低:直到最近,只有不到三分之一的資料被編目,幾乎沒有進行任何整理。 10-15%的人有成績單 清晰可辨。其餘部分雖然已數位化並以圖像形式提供,但係統地研究起來仍然很困難,因為閱讀中世紀的希伯來語草書或半草書手稿需要豐富的經驗和時間。
專案的新階段改變了這一格局。在以色列國家圖書館管理的、包含所有已知希伯來語手稿的數位資料庫 Ktiv 的基礎設施基礎上,一個國際團隊開發了… 自動轉錄系統 能夠將這些片段轉化為 可搜尋的數位文字至少在最初版本是這樣,之後還會再改進。
根據該機構公佈的數據,除了以下部分外,開羅藏經閣幾乎所有部分的初步記錄都已經產生: 數千份其他希伯來文手稿 這些藏品來自其他中世紀藏品。對於一個發展了一個多世紀的領域來說,規模上的飛躍怎麼強調都不為過。
MiDRASH:人工智慧與人文科學服務於希伯來手稿
這一轉變的核心是MiDRASH(透過對希伯來中世紀手稿進行大規模計算分析來研究文本和抄寫傳統的遷移), 跨學科項目 該計畫匯集了來自以色列和歐洲的專家。該計畫於2023年啟動,得益於歐洲研究理事會授予的為期六年、金額達10萬歐元的ERC協同基金,這是首個專門用於猶太研究的此類基金。
MiDRASH 的目標不僅限於轉錄古代文本。正如其負責人之一丹尼爾·斯托克爾·本·埃茲拉教授所解釋的那樣,其雄心壯志是 重建中世紀猶太文學文化追溯哪些作者引用了其他作者,拉比註釋(米德拉什)如何在穆斯林和基督教社區之間流傳,以及書面傳統如何在幾個世紀中發生轉變。
為了實現這一點,團隊選擇在開源平台上工作。 抄寫室該系統專為手稿和銘文的自動轉錄而設計,它針對中世紀希伯來文字開發了特定的模型,這些模型基於專家多年來手動收集的數千份轉錄文本進行訓練。最終,該系統能夠分割古代圖像中的線條和單詞,並將其轉換為可編輯的文本。
負責人強調,儘管最初的謄本存在錯誤——這是字跡潦草、殘缺不全或墨跡褪色等情況下不可避免的——但他們 實用性 它非常龐大:它能讓你快速找到聖經經文、塔木德經章節、信件、合約或禮拜文本,而這在以前需要耐心一頁一頁地閱讀。
從縮微膠片到開放平台:一條漫長的道路

目前數位革命 中世紀猶太手稿 它並非憑空出現。以色列國家圖書館回憶說,早在1950年,在時任總理戴維·本-古里安的推動下,希伯來語手稿縮微膠片研究所就已成立。由於將所有藏品實際搬遷到耶路撒冷並不現實,因此解決方案是將盡可能多的藏品拍攝成縮微膠片,從而為建立一個大型視覺檔案館奠定了基礎。
幾十年來,有些被併入 1.500個收藏 自2006年起,開羅藏經閣的資料陸續被納入弗里德伯格藏經閣項目,該項目加速了藏經閣的數位化進程。 2014年,國家圖書館開始將其照片檔案轉換為可在線上存取的數位館藏,首次實現了用戶在線上搜尋和瀏覽數千份希伯來語手稿。
MiDRASH 直接建立在先前的研究成果之上。該團隊利用 Ktiv 的基礎設施(該基礎設施已將大部分已知的希伯來語手稿整合到一個資料庫中),並採用了以下演算法: 自動學習 辨識字母、單字和文字結構。這種集中式檔案庫與先進計算工具結合的方式,避免了其他領域(例如阿拉伯手稿研究)中存在的一個主要問題,即材料分散程度更高。
國家圖書館研究計畫負責人Tsafra Siew博士將MiDRASH定義為真正的 拐點 對於任何從事中世紀希伯來文手稿研究的人來說,這都是一項重大進步。在他看來,這項進步不僅在於使查閱更加便捷,更在於能夠進行一些分析,而這些分析由於文獻規模龐大,在過去幾乎每份文獻都必須手工閱讀的情況下是無法實現的。
國際合作與轉錄研討會
MiDRASH計畫是一個國際聯盟,匯集了技術和人文方面的專業知識。首席研究員包括特拉維夫大學的納胡姆·德肖維茨教授、巴伊蘭大學的阿維·施密德曼博士和牛津大學的朱迪思·奧爾索維-施蘭格教授,以及來自海法大學、以色列國家圖書館和…的團隊。 普林斯頓 Geniza 項目瑪麗娜·魯斯托教授執導。
這項計劃遠不止於實驗室工作,它也為公眾參與開闢了途徑。 11月24日至27日,在耶路撒冷舉辦了一場大型活動,並進行了線上直播。 “轉錄馬拉松” 該計畫專注於中世紀和現代希伯來語手稿,包括草書和半草書。在這些環節中,經過訓練的志工會審查並修正人工智慧產生的轉錄文字。
這種協作方式追求雙重目標。一方面,是為了改進… 品質和精度 一方面,系統會對文本本身進行分析;另一方面,利用人工校正來進一步訓練識別模型,從而減少未來的錯誤數量,並更好地識別即使是最棘手的手寫體。其理念是,系統能夠逐步從語言學家、古文字學家和希伯來語專家的經驗累積中學習。
以色列國家圖書館已表示,開羅藏經閣的最終抄本將被納入Ktiv資料庫,並與以下資料一起向公眾開放: 原始圖像 每份手稿都如此。這樣,任何研究人員都可以將機器識別的內容與傳真件中可見的內容進行比較,從而保持透明度,並允許進行新的解讀或未來的更正。
老故事的新問題
大規模轉錄階段完成後,專案負責人希望實現的目標遠不止於提供存取權限。他們的計劃是能夠進行以下工作: 語言學和文本分析 從大範圍來看:偵測引文鏈、辨識釋義、重建思想脈絡,或追蹤某些神學和法律主題在幾個世紀中的演變。
實際上,這意味著中世紀猶太手稿不再只是書架上或數位檔案館裡的孤立作品,而是開始發揮其作用。 相互關聯的文本網絡人工智慧有助於發現純粹個人閱讀中會失去的模式、相似之處和重複出現之處,而專家則提供歷史和語言學背景來解釋這些連結的意義。
團隊的一些具體研究興趣包括追溯米德拉什(猶太教釋經集)的傳播軌跡,米德拉什是拉比在穆斯林和基督教地區猶太社區中流傳的敘事和評論。能夠繪製出同一文本的不同版本如何隨地區或時代而變化,有助於我們更好地理解… 文化交流中世紀發生的內部衝突和教義重新詮釋。
研究人員堅持認為,即使機器轉錄存在不足,但這只是個開始。在此基礎上,未來還有進一步發展的空間。 比較研究 詞彙、句法或寫作風格,以及基於信件、商業合約或法律文件的社會和經濟分析,這些分析到目前為止幾乎沒有系統的探索。
歐洲的全球影響力與機遇
儘管該計畫起源於以色列並由以色列協調,但其影響力完全擴展到歐洲學術界。資助MiDRASH計畫的ERC協同增效基金是歐盟政策的一部分。 支援數位基礎設施 在人文領域,幾位主要研究人員在法國、英國和其他國家的大學工作。
對於研究地中海歷史、中世紀猶太教或古典伊斯蘭教的歐洲專家而言,擁有這樣一個全面且可檢索的資料庫意義重大。在此之前,重建生活在穆斯林領土(甚至穆斯林也居住在那裡)的猶太社區的生活是一項複雜的工作。 中世紀猶太人口的90%——這需要出行,查閱檔案資料也受到限制。隨著克提夫國家圖書館逐步開放,現在任何校園或研究中心都可以查閱到其中的大部分資料。
此外,MiDRASH 開發的方法論提供了一個可擴展到其他歐洲文獻收藏的模型:從拉丁文手稿收藏到公證或教會檔案。將數位化、自動轉錄和公眾協作相結合的理念正在興起。 可複製路線 保護和研究其他面臨損毀風險的文化遺產地。
計畫負責人相信,將研究結果發表在同行評審的科學期刊上,將使這種方法符合學術標準。同時, 開放 這些圖像和文字記錄有望促進以色列、歐洲和美國大學之間的合作,圍繞中世紀猶太手稿建立更廣泛的研究網絡。
人工智慧的進步及其在開羅藏經閣和其他希伯來文手稿中的應用,將一個幾乎無法管理的檔案庫轉變為一個 生氣勃勃、不斷擴展的泉源過去需要數年細緻閱讀才能找到的信息,現在只需幾秒鐘就能找到,這並沒有降低專家工作的重要性,反而恰恰相反:它騰出了時間去提出更複雜的問題,並深入解讀一項遺產,這項遺產正逐漸不再是隱藏的寶藏,而是成為全球共享的資源。
