Application of reinforcement learning from human feedback for localizing quality agricultural advice using generative AI

Vineet Singh; Sanyam Singh; Lakshmi Pedapudi; Waseem Pasha; Ekta Kumari; Rikin Gandhi; Alesha Miller; Jona Repishti; Archana Karanam; Eric Firnhaber

doi:10.37433/aad.v7i2.625

Authors

Vineet Singh Digital Green, Karnataka, India
Sanyam Singh Digital Green, Karnataka, India
Lakshmi Pedapudi Digital Green, Karnataka, India
Waseem Pasha Digital Green, Karnataka, India
Ekta Kumari Digital Green, Karnataka, India
Rikin Gandhi Digital Green, San Francisco, CA, USA https://orcid.org/0009-0004-9958-5113
Alesha Miller Digital Green, San Francisco, CA, USA https://orcid.org/0009-0001-5282-4736
Jona Repishti Digital Green, San Francisco, CA, USA https://orcid.org/0009-0005-4866-0424
Archana Karanam Digital Green, San Francisco, CA, USA
Eric Firnhaber Digital Green, San Francisco, CA, USA https://orcid.org/0009-0009-5035-6009

DOI:

https://doi.org/10.37433/aad.v7i2.625

Keywords:

agricultural advisory, generative AI, reinforcement learning from human feedback, RLHF, smallholder farmers, expert annotation, language models, digital extension, farmer-centered design, multimodal AI, localization, SDG 2: Zero Hunger

Abstract

Recent generative AI offers personalized, high-quality advice to smallholder farmers in resource-limited settings. Yet, most large language models (LLMs) lack training data for diverse agroecologies, often yielding generic, inaccurate, or locally misaligned advice. Digital Green adapted Reinforcement Learning from Human Feedback (RLHF) to agricultural advisory to deliver highly localized, relevant, information. This refined tool, called Farmer.Chat, is an AI assistant supporting over 670,000 farmers in India, Kenya, Ethiopia, and Nigeria with text, image, and voice-based content. This paper details Digital Green's RLHF approach: a web-based annotation tool, multi-phase implementation, and quality assurance. Over 25,000 expert-reviewed Q&A pairs yielded significant improvements in response quality, tone, context, and cultural fit, especially for region-specific agricultural queries. The work outlines key lessons, cost/equity, and replication guidance. It calls for researchers, governments, and NGOs to pool validated Q&A data, strengthening global AI systems. Future work explores multimodal RLHF (image, voice, video), aiming to foster a global, inclusive, evidence-based ecosystem for AI agricultural advice.