Как ИИ учится видеть урожай со спутников в разных странах мира

Сельскохозяйственные исследования все теснее переплетаются с технологиями, и концепция «умного» земледелия, включающая использование вычислительных инструментов для решения проблем болезней растений, засухи и устойчивости, становится неотъемлемой частью аграрных лабораторий. Доступность мощных вычислительных ресурсов, таких как суперкомпьютер Delta Национального центра суперкомпьютерных приложений (NCSA), как для исследователей по всей стране, так и в кампусе Иллинойсского университета в Урбане-Шампейне (U. of I.), создает благоприятную среду для передовых аграрных проектов.

И-Цзя Чан, аспирант U. of I., специализируется на машинном обучении (ML) и дистанционном зондировании. Его недавнее исследование, опубликованное на arXiv и принятое к конференции IEEE IGARSS 2025, посвящено картированию сельскохозяйственных культур. Эта технология имеет огромное значение. Фермеры могут использовать карты посевов, чтобы решить, какие культуры наиболее выгодно выращивать в предстоящем сезоне. Политики, в свою очередь, получают инструмент для прогнозирования возможного дефицита определенных культур и стимулирования их производства через субсидии. Для принятия таких решений необходимо точно знать, что и где выращивается в данный момент.

Картирование сельскохозяйственных культур основано на анализе спутниковых снимков для создания подробных карт распределения различных культур в конкретном регионе. Эти карты являются ключевым инструментом для мониторинга состояния посевов и региональных запасов продовольствия. Они помогают аграриям планировать севооборот и внедрять элементы «умного» земледелия: отслеживать рост растений, анализировать условия осадков, прогнозировать урожайность и даже выявлять очаги заболеваний.

Помимо помощи отдельным фермерам, такие карты важны и в более крупном масштабе. Они позволяют государственным органам и организациям оценивать объемы и типы производимого продовольствия на определенной территории. Машинное обучение играет решающую роль в поддержании актуальности этих карт. Только в США миллионы акров сельскохозяйственных угодий требуют анализа, маркировки и картирования. Человеческих ресурсов недостаточно для обработки такого объема данных в реальном времени, поэтому обучение машин сканированию спутниковых изображений и распознаванию культур становится гораздо более эффективным решением.

Исследователи уже добились значительных успехов в обучении машин распознаванию не только типов культур, но и многих других элементов сельского хозяйства по спутниковым снимкам. Созданы точные модели для хорошо изученных регионов, таких как США. Однако мало известно о том, насколько эффективно эти модели работают в новых географических зонах, особенно там, где данных недостаточно. Это вызывает опасения относительно «геопространственной предвзятости» – ситуации, когда модели, обученные на данных из развитых стран, могут плохо работать в менее развитых регионах с иными аграрными практиками.

Исследование Чана, вдохновленное предыдущей работой его команды, опубликованной в материалах конференции NeurIPS 2023, изучает эффективность популярных моделей наблюдения Земли применительно к новым регионам. Особое внимание уделяется сельскому хозяйству, где различия в методах ведения хозяйства и неравномерная доступность данных затрудняют перенос знаний между территориями. Чан выбрал четыре основные зерновые культуры – кукурузу, сою, рис и пшеницу – и протестировал три широко используемые предварительно обученные модели. Он сравнил их производительность на данных, которые модели уже «видели» (внутри распределения), с данными из новых регионов (вне распределения).

Результаты показали, что модели, предварительно обученные на специализированных спутниковых данных, таких как Sentinel-2 (модель SSL4EO-S12), работают лучше, чем модели, обученные на общих наборах изображений вроде ImageNet. И-Цзя Чан говорит, что благодаря гармонизации наборов данных о типах культур на пяти континентах они обнаружили, что базовые модели, предварительно обученные на полных спектральных диапазонах Sentinel-2, лучше подходят для картирования типов культур. Его исследование также показывает, что обучение на данных из новых, ранее не известных модели регионов (вне распределения) может повысить производительность, когда данных из «знакомого» региона (внутри распределения) недостаточно. В долгосрочной перспективе команда все же надеется получить более крупные и сбалансированные наборы маркированных данных, поскольку именно они помогают достичь наилучших результатов в картировании. Чан выражает воодушевление тем, как базовые модели и перенос обучения могут способствовать укреплению продовольственной безопасности.

Работа Чана полностью интегрирована с TorchGeo, библиотекой с открытым исходным кодом для геопространственного машинного обучения, что позволяет другим исследователям легко развивать его результаты. Команда планирует использовать полученные выводы для разработки новых моделей «умного» земледелия. И-Цзя Чан сообщает, что их будущая работа будет сосредоточена на расширении наборов данных о типах культур и разработке предварительно обученных моделей, специфичных для сельского хозяйства. Они также создадут контрольные показатели для сельскохозяйственных приложений базовых моделей, таких как картирование типов культур и прогнозирование урожайности, преодолевая разрыв между геопространственным ИИ и решениями для продовольственной безопасности.

Для выполнения этой работы потребовались огромные объемы хранилищ данных и вычислительные мощности. Графические процессоры (GPU) были необходимы для своевременного выполнения части проекта, связанной с машинным обучением, но также требовалось много места для хранения спутниковых снимков. Чан уже имел опыт использования исследовательских вычислений, работая с кластером кампуса под руководством профессора информатики Ариндама Банерджи. Несмотря на предыдущий опыт работы с высокопроизводительными вычислениями (HPC), Чан с удовлетворением отмечает, что перенос его проекта на суперкомпьютер Delta прошел относительно просто. По его словам, опыт использования Delta оказался гладким и удобным. Административный персонал оперативно реагировал, одобрив обмен токенов на часы работы GPU и выделение хранилища в течение нескольких дней. Технический персонал эффективно помогал в устранении неполадок. Чан выражает особую благодарность Бретту Боде за помощь в выделении более 50 ТБ дискового пространства для спутниковых изображений.

 

Перспектива

Бездействие в защите лесов удвоит затраты на борьбу с изменением климата

Кораллы в порту: как промышленная зона стала природным заповедником

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *