Abstract:
自从OpenAI发布了ChatGPT,大语言模型(LLM)引起了社会各界广发关注和遐想,同时也衍生了各种大模型的应用场景开发热潮。大预言模型的构建是一个复杂而又精细的巨系统,它不仅牵涉到数据质量、算力分配,而且同样取决于工程技艺、算法实现细节等。这个报告主要讨论构建大模型的一些技术问题,特别是一些细节比如Scaling Law, Compression, Tokenization, Alignment 等对模型性能的潜在影响。
8年前学生给我讲“炼丹术”,8年后学生给我讲“造原子弹”。8年前,我还觉得“风轻云淡”,8年后则是“山雨欲来风满楼”。报告也试图分享个体或学术届在大模型研发的机会和作为。
About the Speaker:
张志华,教授,皇冠新体育皇冠新体育。之前曾经先后任教于浙江大学和上海交通大学,任计算机科学教授。主要从事统计学、机器学习与理论计算机科学领域的研究和教学。曾多次担任NeurIPS、 ICML、ICLR 等国际重要人工智能和机器学习会议领域主席。是国际机器学习旗舰刊物Journal of Machine Learning Research的执行编,CSIAM Transactions on Applied Mathematics编委。中国现场统计研究会机器学习分会理事长。已在JMLR、AI、AOS、MP等期刊以及COLT、NeurIPS、ICML、ICLR、IJCAI、AAAI、AISTATS、UAI、MLSys、KDD、CVPR、ACL、EMNLP等会议发表论文100多篇。
Homepage: https://www.math.pku.edu.cn/teachers/zhzhang/