印度的人工智能模型开始学习印度电视广播经典节目档案中的智慧

政府将为印度基础模型的开发公司开放印度国家广播机构Doordarshan的档案，帮助它们训练包含印度文化与语言多样性的高质量数据。一位高级官员向经济时报透露。

作为印度人工智能使命的一部分，政府将提供1000亿卢比的激励措施，以支持AI模型的发展。同时，政府也倾向于那些有助于新德里实现社会目标的语音输出和结构，这些目标包括健康、教育、灾害管理以及农产品生产等。

行业长期以来一直呼吁开放Prasar Bharti的档案，因为没有单一平台能够提供如此丰富且与印度历史相关的多媒体内容，并且这些内容覆盖了多种语言。一位官员表示：“在模型中，重要的是它背后的科技是什么样的。同样重要的是它所训练的数据是什么样的，是否存在偏见或文化问题。我们可以使用自己的语言和文化背景丰富的数据集来训练模型。”

前Prasar Bharati CEO及AI4India创始人Shashi Shekhar Vempati告诉经济时报：“印度基础模型开发的关键需求是能够获取丰富且多样的公共数据集。Doordarshan和全印广播的音频-视频档案是现代印度历史、文化和遗产的真实记录。全印广播的内容不仅涵盖了23种官方语言，还包括超过100种较少使用的语言和方言，这些语言和方言在互联网上的数字足迹非常低。”

在1月30日启动的1000亿卢比的印度人工智能使命下，政府已开始接受建立印度基础模型的提案申请，并计划每月15日进行评审，直到有足够的提案被选中或六个月内完成。

政府已经拨款近150亿卢比用于支持基础人工智能模型开发者的补贴。迄今为止，已有超过60个来自企业和初创公司的提案。

另一位官员表示：“政府建议公司专注于语音开发，因为这更适合印度的人口结构。乡村或半城市地区的人们可以通过语音提示获得更多信息，而不是文本提示。”

社会目标

这位官员还提到，在寻求通用型模型的同时，政府也关注农业、灾害管理、教育和医疗保健领域的专门模型。“这些都是影响大规模产业的重要领域。”

资金将以赠款、计算信用或股权融资的形式分阶段提供。提案可以由公司联盟或个人及研究人员联盟提交。

在评审提案后，政府可能会根据收到的提案选择提供免费GPU访问权、免除GPU访问费用或补贴运营成本等措施。

Vempati指出：“十年前进行的DD和AIR档案数字化工作现在正在人工智能时代发挥重要作用。”在他任职期间，Prasar Bharati已将这些数字档案开放给IIT Kanpur以开发AI模型和算法。

Mann ki Baat广播在20多种印度语言中的语料库是开发机器学习模型的一个真实可靠的基底。IITs早期对印度语言模型开发的研究正是基于这一语料库。

Nanavati表示：“这个数据档案库有很大的潜力为各种类型的基础AI模型提供大量数据。社区可能需要进行大量的数据处理和清理工作才能使其被模型所使用。”

对于语音模型来说，准确的字幕匹配音频也非常关键；如果尚未完成，则需要大量投资来实现。

总结：本文介绍了印度政府为支持本土AI基础模型的发展而采取的一系列措施。通过开放国家广播机构Doordarshan和全印广播的历史性多媒体内容档案，并提供资金支持和技术指导，旨在促进涵盖健康、教育、农业等多个领域的高质量AI训练数据集的创建与应用。

印度的人工智能模型开始学习印度电视广播经典节目档案中的智慧

Leave a comment

Tag Clouds

Explore Topics

Press ESC to close

印度的人工智能模型开始学习印度电视广播经典节目档案中的智慧

Leave a comment

Tag Clouds

Newsletter

Explore Topics