作者 吴林海 江南大学食品安全与国家战略治理实验室首席专家
当前,人工智能正以前所未有的速度渗透至食品安全风险治理领域,推动食品安全监管从“被动响应”向“主动预见”、从“经验驱动”向“数据驱动”的根本性转变。然而,在这一转型过程中,一个核心问题日益凸显:如果缺乏高质量的食品安全领域专业语料,将可能导致人工智能应用陷入“场景陷阱”,即投入大量资源建设的智能化平台,最终因无法满足实际需求而沦为“场景摆设”。本文旨在初步阐述食品安全风险治理领域垂直应用中为何必须构建高质量专业语料,为全国推进“人工智能+食品安全”行动提供参考。
一、理论层次:专业语料是垂直领域人工智能的“认知基石”
1、人工智能模型的“数据决定论”。人工智能模型的性能边界内在地取决于其训练数据的质量所决定。无论算法架构如何优化,若缺乏高质量数据,模型将无法学习到该领域的核心知识与规律。我们的研究证实,没有高质量的专业语料库,人工智能在垂直领域的应用就是“无米之炊”“无源之水”。这一结论在学术界正在形成广泛共识。通用大语言模型虽然在海量通用数据上表现卓越,但在食品安全领域面临知识体系碎片化、语义解析粗粒度、专业逻辑离散化等三重局限,难以满足食品安全风险识别等复杂任务对高精度领域知识的需求。
二、技术层次:专业语料决定垂直应用的性能边界
1. 从通用模型到垂直应用的“知识鸿沟”。通用大语言模型虽然在开放域问答中表现优异,但在食品安全垂直领域面临明显的“知识鸿沟”。以国内某研究机构发布的FoodSky(食天)食品大语言模型研究为例,研究者发现通用模型在厨师和营养师专业考试中的准确率远低于领域专用模型,通用大模型在处理食品安全领域的细粒度知识时明显不足,难以应对不同饮食文化背景下的复杂数据与专业场景。没有专业语料的支撑,再强大的通用模型也无法在特定领域达到可用水平,这构成了从通用能力到专业应用之间不可逾越的技术鸿沟。
江南大学食品安全与国家战略治理实验室宋晓宁教授的研究指出,通过综合运用大语言模型、知识图谱与文本向量库,可以显著提升食品安全领域的知识检索效率与准确性。科学的食品知识图谱将食品安全领域的知识结构化,形成可关联、可追溯、可推理的知识网络,确保信息的准确性、一致性与可解释性。
三、比较研究:国际前沿与国内实践。
1、国际前沿研究。国际学术界在食品安全领域专业语料构建方面已取得显著进展,形成了多模态、多场景、多任务的发展格局。Cell Press旗下期刊《Patterns》近年来发表的FoodSky研究,代表了食品大语言模型的前沿方向。该研究通过整合多种权威来源的食品数据,构建了大规模的食品语料库,并提出了分层主题检索增强生成算法,通过在推理过程中检索外部知识库来增强生成内容的准确性与可靠性。
在计算机视觉领域,面向食品质量检测的专用数据集不断涌现。加纳学者发布的MeatScan数据集,包含11,000幅高分辨率RGB图像,覆盖露天市场、肉铺和冷库等真实场景,用于深度学习-based的新鲜与变质牛肉分类。孟加拉国学者发布的FruitVision数据集,包含81,232幅图像,涵盖苹果、香蕉、芒果等五种水果的新鲜、腐烂和福尔马林混合三类状态,为检测非法添加物提供了宝贵的训练数据与基准参考。国际经验表明:专业语料的建设已成为全球食品人工智能领域的竞争焦点。谁掌握了高质量的专业语料,谁就掌握了该领域人工智能发展的主动权。这一趋势深刻揭示出:在食品安全垂直领域,语料建设已从“支撑性工作”上升为“战略性工程”。
尽管我国在食品安全领域人工智能应用方面取得重要进展,但我们的调研发现,不少地方在建设“AI+食品安全监管智能化”平台中存在突出问题:没有或很少基于食品安全风险治理语料库,没有科学地对语料进行标注。这一问题导致部分应用场景沦为“场景摆设”——由于缺少高质量的语料,AI模型无法理解食品安全领域的专业术语和上下文,无法在复杂的风险信息中找到路径并进行预测,最终难以支撑真实的业务闭环。没有标注的语料对AI来说就是“天书”,标注质量直接决定AI模型的准确率。
四、未来建议:构建国家通用的食品安全专业语料体系
1、建设国家级食品安全语料库。建议国家相关部门牵头,顶层设计,高度重视食品安全专业语料体系建设,将其作为推进“人工智能+食品安全”行动的基础性、先导性工程,统筹规划、系统推进,为构建全域、全程、全员的食品安全智慧治理新范式奠定坚实基础。
2、形成多层次的语料体系。从政府治理食品安全风险的角度,完整的食品安全语料体系至少应该包括范围广、全覆盖、体系化的行政处罚与司法惩罚案例语料体系,食品安全法律、法规与政策语料体系,食品安全国家技术标准语料体系,各地再深化地方性法规、政策、地方食品技术标准语料体系,从而形成自上而下的全国性食品安全语料库,使之成为推进“AI+食品安全”行动的战略资源。
4、政产学研用协同创新。国家相关部门可采用揭榜挂帅的方式选择全国食品安全风险治理领域语料库建设的牵头单位,组建由高校、科研院所、食品企业、人工智能企业共同参与的政产学研用体系,共同建设国家级食品安全专业语料库,制定全国性的食品安全语料采集、清洗、标注的技术规范和标准体系。鼓励科人工智能企业与食品企业合作,将实践经验反哺语料库建设,实现“专业知识+工程能力+场景落地”的闭环。从国家法律法规数据库、国家市场监督管理总局官网、国家裁判文书网等官方渠道归集权威、宏观数据与提供覆盖从农田到餐桌的全链条,包括生产、加工、流通、消费各环节的风险信息,服务语料体系建设。
5、建立语料动态更新机制。食品安全知识具有动态性,语料库建设不是“一锤子买卖”。应同步建议法规动态跟踪:实时捕获法律法规、标准规范的更新信息,风险事件归集:将新发生的食品安全事件及时纳入语料库,模型反馈闭环:利用AI模型在实际应用中的表现,反向指导语料的优化和扩充等更新机制(本文为上海市经济和信息化委员会,项目编号:2025-GZL-RGZN-BTBX-02016的阶段性研究成果)。