2024年8月27日上午,北京师范大学古汉语大语言模型“AI 太炎 2.0”发布会暨数智时代应用语言学学科建设路径与方法座谈会在京隆重举行。教育部语言文字信息管理司司长刘培俊、北京师范大学常务副校长王守军出席发布会,项目负责人、北京师范大学文学院院长王立军和专家学者代表共同启动系统上线。来自北京高校和相关科研机构的三十余位专家学者及十余位海外汉学家参加了本次会议。
党的二十大把“实施国家文化数字化战略”作为繁荣发展文化事业和文化产业的重要举措。作为中华优秀传统文化的重要载体,古代典籍的数字化整理与智能化研究,是贯彻落实这一战略部署的关键任务。以北师大王立军教授为主持人的“古籍整理智能化关键技术研究”项目团队,积极利用人工智能前沿技术解决古籍整理与研究中的实际问题,产出了“AI太炎”古汉语大语言模型这一重要成果,回应了党和国家文化事业发展战略的重大需求。
嘉宾代表华学诚、周建设、刘利、杜晓勤与项目负责人王立军、主持人周云磊共同启动系统上线
在致辞环节,教育部语言文字信息管理司刘培俊司长充分肯定了北师大中文学科在服务国家语言文字事业方面进行的不懈探索和取得的突出成就,指出大语言模型技术可以大幅提高古籍整理研究效率,可望为普及推广国家通用语言文字、传承弘扬中华优秀语言文化、世界共享中国特色语言文明提供语言智能技术支持。王守军副校长在致辞中指出,人工智能为人文学科带来前所未有的机遇与挑战,项目组开展以“AI太炎”为代表的古籍整理智能化关键技术研究,是新时代国家语言文字事业发展的迫切需要,对于传承弘扬中华优秀传统文化来说具有重要意义。北京大学中文系主任杜晓勤指出,北京师范大学依托深厚学术积累,在中文信息处理与古籍数字化领域取得了重要突破,为汉语言文学学科的传承与发展做出了积极贡献。汉字汉语研究与社会应用实验室学术委员会主任、北京语言大学教授华学诚表示,“AI太炎”古汉语大语言模型是中国学者践行守正创新的成果,在中国特色现代化道路上展现了人文与学术担当。
据项目组负责人王立军教授介绍,项目组针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古汉语文本理解的大语言模型。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B参数量即可取得较好效果。该模型具有较强的古典文献释读能力,支持词义注释、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务,且兼容繁简中文输入。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。为了致敬近代国学大师章太炎先生,秉承章黄学派弘扬中华优秀传统文化的宗旨,该模型命名为“AI太炎”。
访问地址:https://t.shenshen.wiki
此前股票配资客服,“AI太炎”1.0版于2023年11月进入内测阶段, 海内外学术科研、基础教育、编辑出版等不同行业领域的4000余名用户参与内测,为模型改进提出了宝贵建议。研究团队在此基础上对模型进行了持续迭代优化,并发布了该模型2.0版,以期更好地助力古籍整理、文言文教学和古汉语信息处理研究。
古籍刘培俊模型王立军北京师范大学发布于:北京市声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。