数据质量 关键字列表
“弱智贴吧”的数据,居然是最强中文语料库

“弱智贴吧”的数据,居然是最强中文语料库

在大模型领域英语一直是训练数据最重要的语言,但由于中英文的结构和文化差异,直接将英文数据集翻译成中文并不理想。所以,为了填补高质量中文数据集的空白,研究人员开发出了COIG-CQIA数据集。

药物开发现代化之路:应用AI技术的经验和教训

药物开发现代化之路:应用AI技术的经验和教训

全球20强生物制药企业中,去年新药开发的平均成本上涨了15%(增长数字为2.98亿美元),总额来到约23亿美元。这23亿美元,涵盖了从候选药物发现、临床试验再到产品上市的全流程平均成本。