Press ESC to close

印度的人工智能模型即将学习印度电视广播经典节目档案中的智慧

indian-ai-models-get-to-learn-from-doordarshans-classic-tv-archives.jpg

政府将为印度基础模型公司开放印度国家广播机构Doordarshan的档案,以帮助它们训练包含印度文化与语言多样性的高质量数据。一位高级官员向《经济时报》透露。

在10000亿卢比的印度AI使命计划下,政府将为AI模型提供激励措施,并倾向于那些有助于新德里实现社会目标的语音输出和结构,这些目标包括健康、教育、灾害管理以及农产品等。另一位官员表示。

行业长期以来一直呼吁开放Prasar Bharti的档案,因为没有单一平台能包含如此丰富且与印度历史相关的多媒体内容,并且这些内容涵盖多种语言。这118610984号公告指出。

“在模型中,重要的是其背后的技术类型。同样重要的是它所训练的数据类型,是否有偏见或文化问题。我们可以通过自己的语言和文化内涵丰富的数据集来训练模型……”这位官员补充道。他强调,开放Doordarshan档案是策略的一部分。“这将为许多组织提供丰富的数据,用于以正确的方式训练模型。”

前Prasar Bharati CEO及AI4India创始人Shashi Shekhar Vempati告诉《经济时报》,开发印度基础模型的关键要求是能够访问丰富且多样的印度数据集。Doordarshan和全印广播的音频-视频档案是现代印度历史、文化和遗产的活生生记忆。全印广播的内容不仅涵盖了23种官方语言,还有超过100种较少使用的语言和方言。这些语言和方言在互联网上的数字足迹非常低。

在10000亿卢比的印度AI使命计划下,政府于1月30日发布了构建印度基础模型的提案征集通知。提案将在每月15日进行评审,直到有足够的提案被选中或六个月期限结束为止。

政府已拨款近150亿卢比作为补贴给基础人工智能模型开发者的资金。迄今为止,已有超过60个来自成熟公司及初创企业的提案。

另一位官员表示,政府建议构建模型的公司专注于语音输出,因为这对于印度的人口结构更为适合——乡村或半城市地区的居民可以通过语音提示获得更多信息而非文本提示。“语音变得越来越重要。许多专家认为未来我们的许多互动将是基于语音的。有人甚至说下一代操作系统也将是基于语音的。这就是为什么我们在策略中认为语音非常重要。”上述第一位官员补充道。

社会目标

这位官员还提到,政府不仅寻求通用目的模型,还关注农业、灾害管理、教育和医疗保健等领域的专门模型。“基本上这些都是影响大规模产业的领域。”

资金将以赠款、计算信用或股权融资的形式提供给开发者,在一段时间内进行发放。提案可以由公司联盟或个人及研究人员联盟提出。

在评审提案后,政府可能会根据收到的提案选择提供免费GPU访问权、抵消GPU访问费用或补贴运营成本。“这完全取决于他们提出的要求。”第三位官员补充道。Vempati指出,在过去十年进行的DD和AIR档案数字化工作现在正在AI时代带来回报。

Vempati在其任期内曾将这些数字档案开放给IIT Kanpur用于开发AI模型和算法。

Mann ki Baat广播在20多种印度语言中的语料库是一个真实可靠的机器学习模型基础,在IITs进行早期印地语等语言模型开发研究时曾利用了这一语料库。

Navana AI CEO Raoul Nanavati告诉《经济时报》,这个数据档案具有很大的潜力来提供各种类型基础AI模型所需的大规模数据集。社区可能需要大量数据处理和清理工作使其成为可消费的数据集。对于语音模型而言,准确匹配音频的字幕也非常关键,并且如果没有已经完成,则需要大量投资才能完成。

总结:本文主要讨论了印度政府如何通过开放国家广播机构Doordarshan和全印广播的多媒体档案来促进印度基础AI模型的发展,并强调了高质量数据的重要性及其对社会目标实现的支持作用。
Enos Harvey

Hi, I’m Enos Harvey, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram