Съвременните управленски политики, от разпределението на ваксини до планирането на спасителни действия при наводнения, все по-силно зависят от огромни масиви данни. Често се приема, че благодарение на сателитното наблюдение и компютърното моделиране разполагаме с прецизно цифрово отражение на населението на Земята.

Ново изследване в Nature Communications обаче посочва сериозен проблем: алгоритмите, на които разчитат ООН и националните власти, системно пропускат стотици милиони хора в селските райони. Отклоненията там се оказват многократно по-големи от реалните стойности, предаде "Калдата".

В условията на дигитализация класическото преброяване, при което преброители посещават физически всяко домакинство, изглежда остаряло. На негово място се наложиха глобални мрежи за население, тоест цифрови карти, които разделят земната повърхност на клетки, обикновено 1х1 км или 100х100 метра, и за всяка клетка дават приблизителен брой жители.

Подобни бази данни, като WorldPop, LandScan и GHS-POP, се създават чрез сложни алгоритми. Софтуерът обработва сателитни снимки, пътни мрежи и данни за нощната осветеност на Земята, след което ги съпоставя с наличната официална статистика. Така се получава детайлна "топлинна карта" на човешкото присъствие.

Точно тези карти служат на международните организации при оценка на риска. Епидемиолози ги използват, когато изчисляват разпространението на вируси, а климатолози, когато прогнозират колко хора ще бъдат засегнати от покачването на морското равнище. Екип учени от университета Аалто във Финландия обаче показва, че в селските райони тези модели рисуват подвеждаща картина.

Проблемът с проверката: как се валидира нещо без надежден ориентир

Ключовата трудност при оценката на точността на глобалните карти е липсата на стабилен критерий за сравнение. В развитите държави и големите градове статистиката се поддържа сравнително прецизно. Но в селските зони на развиващите се страни, именно там, където живее значителна част от световното население, преброяванията са редки, нередовни или изпълнени с грешки.

Обичайните подходи за валидация често се оказват кръгови: алгоритъмът се настройва по данни от преброяване, а после резултатът му се сверява със същото, често остаряло, преброяване. По този начин системните дефекти в моделирането остават невидими.

Авторите на новото проучване избират различен път. Те използват като източник на надеждни данни документите за принудително преселване при строителството на големи язовири.

Когато се изгражда водноелектрическа централа и се създава язовир, районът трябва да бъде напълно освободен. За разлика от стандартното преброяване, където е възможно хора да бъдат пропуснати, презаселването изисква стриктна физическа регистрация на всеки жител за целите на компенсации и мерки за преместване. Затова тези данни са сред най-точните демографски сведения, с които разполагат изследователите.

Екипът изгражда база данни за 307 язовирни проекта в 35 държави. След това учените възстановяват контурите на наводнените територии и сравняват официално отчетения брой реално изселени хора с броя, който глобалните цифрови модели са "виждали" в същите зони преди наводняването.

Мащабът на "невидимото" население

Анализът показва, че петте най-използвани световни бази данни за население, WorldPop, LandScan, GHS-POP, GRUMP и GWP, споделят една и съща системна слабост. Те сериозно подценяват гъстотата на населението в селските райони.

Диапазонът на грешките е различен:

Тези резултати означават, че компютърните модели средно "изпускат" между половината и четири пети от реалното селско население. Например GHS-POP, разработен от Съвместния изследователски център на Европейската комисия, се представя най-слабо, като на практика не отчита хората в райони с ниска гъстота.

Същественото е, че не става дума за случайни отклонения в двете посоки. Изкривяването е последователно еднопосочно: алгоритмите почти винаги подценяват броя на хората и почти никога не го завишават.

Техническите причини за провала на алгоритмите

Защо най-модерните системи за наблюдение на планетата "пропускат" милиони хора? Изследователите очертават три основни обяснения, свързани с ограниченията на дистанционните технологии.

Селективност на оптичните данни

Моделите за машинно обучение, които откриват сгради върху сателитни изображения, обикновено се обучават предимно с примери от градската среда. Невронните мрежи разпознават добре правоъгълни покриви от бетон, метал, шисти или керемиди, тоест обекти с висок контраст и ясна геометрия.

В много развиващи се държави селските жилища изглеждат по друг начин. Къщите често са от естествени материали, като глина и дърво, а покривите са от слама или суха растителност. За оптичните сензори на сателитите подобен покрив спектрално почти не се различава от почвата или сухата трева. Така алгоритъмът интерпретира населеното място като празен терен.

Ефектът на нощното осветление

Голяма част от моделите използват нощната осветеност като ключов индикатор за човешко присъствие. Принципът е ясен: където има хора, има и светлина. В градовете тази зависимост работи отлично.

В селските райони на най-бедните държави обаче електрификацията често е ниска. Дори при наличие на ток хората могат да пестят енергия и да не включват осветление през нощта. Така обширни населени територии остават напълно тъмни на нощните снимки и моделът ги отчита като необитаеми.

Разделителна способност и растителност

Моделите с по-висока резолюция, които се опитват да различат отделни структури, се сблъскват с ефекта на маскирането. В гористи райони и джунгли малки постройки често са прикрити от короните на дърветата. Сателитът регистрира основно растителността, а софтуерът не отчита жилищата под зелената покривка.

В резултат глобалните карти на практика са "настроени" за урбанизирана среда. Те описват сравнително точно градското население, но при прилагане на същите критерии към селските територии точността рязко се влошава.

Последствия за глобалната политика и сигурността

Неточните данни често стоят в основата на стратегическото планиране, а използването им води до неравномерно разпределение на ресурси и до по-висок риск.

Управление при извънредни ситуации

При подготовка за реакции при природни бедствия, като земетресения, наводнения и урагани, спасителните служби се опират на тези мрежи, за да оценят потенциалния брой пострадали и нужната помощ. Ако моделът подцени населението в засегнатата зона с 80%, това означава, че на практика ще бъдат изпратени пет пъти по-малко храна, вода, лекарства и палатки, отколкото реално са нужни. Подобна грешка създава пряка заплаха за човешкия живот.

Здравеопазване и епидемиология

Кампаниите за ваксинация и контрол на инфекциозни заболявания, например малария, също зависят от карти на гъстотата. Когато селските общности остават "невидими" за алгоритмите, те системно отпадат от здравните планове. Медицинските екипи не заявяват необходимия брой ваксини и не планират логистиката за доставки до райони, които на картата изглеждат празни. Това улеснява формирането на скрити огнища на инфекции.

Инфраструктурно развитие

Решенията за строителство на училища, болници, пътища и клетъчни кули често се базират на анализи за осъществимост, които включват гъстотата на населението. Ако данните показват, че хора няма, инвестициите просто не достигат до тези места. Така грешната картина укрепва бедността и изолацията на селските райони, като ги лишава от основни публични услуги и инфраструктура.

Нуждата от промяна на парадигмата

Авторите подчертават, че пълното отказване от мрежовите данни е нереалистично, защото често те са единственият инструмент за планиране. Необходимо е обаче да се промени начинът, по който се възприема тяхната точност.

Потребителите на тези данни, от служители на ООН до местните администрации, следва да приемат, че оценките за селските райони не са твърд факт, а силно консервативна долна граница.

Решението изисква промяна в методологията за изработване на подобни карти. Изцяло дистанционните подходи, основани само на сателитни изображения, не са достатъчни. Нужно е преминаване към хибридни модели, които активно включват данни от микропреброявания на място и алтернативни източници на информация, независими от наличието на електрическо осветление или от вида на покривните материали.

Докато алгоритмите не се научат да разпознават надеждно нетипичните постройки и да отчитат спецификите на селския начин на живот, глобалната карта ще остава изкривена. А цената на това изкривяване се измерва в пропусната помощ и в нереализирани права на милиони хора за развитие и сигурност.