SLAM: i robot hanno gli occhi?

Il termine SLAM, che comunemente viene accostato ai campi da basket, in realtà è una delle frontiere dell’innovazione tecnologica che sta mettendo alla prova numerosi ingegneri e matematici in tutto il mondo. SLAM, o più precisamente “simultaneous localization and mapping”, è la capacità di un robot di rilevare lo spazio circostante e di sapersi localizzare all’interno di esso: in poche parole è un algoritmo che permette ad un conglomerato di circuiti di vedere e orientarsi. 

Per comprendere l’importanza di tale tecnologia è fondamentale non limitarsi a pensare che possa essere utile solo a robot domestici o industriali per svolgere azioni ripetitive. SLAM infatti, significa anche veicoli a guida autonoma o droni militari capaci di agire in campi di battaglia impervi come deserti e foreste dove connessioni internet e GPS sono inutilizzabili. 

L’ingegnere britannico Hugh Francis Durrant-Whyte fu uno dei pionieri dei metodi probabilistici applicati alla robotica negli anni novanta e fu proprio lui a porre le basi di questo problema evidenziandone anche i limiti, che a quel tempo, erano ancora numerosi: la potenza di calcolo dei computer e la qualità dei sensori. L’algoritmo infatti si fonda su un complesso processo iterativo attraverso il quale vengono analizzate una miriade di immagini, dalle quali vengono estrapolati dei punti notevoli detti “landmarks” che vanno a costituire una nuvola di punti in 3D che deve essere costantemente aggiornata e migliorata. I robot devono orientarsi utilizzando principalmente telecamere che possono fornire video e immagini in 2D, in questo modo diventa impossibile valutare la profondità da una sola immagine ed è per tanto necessario utilizzare diverse immagini per fornire le coordinate spaziali degli oggetti nell’ambiente circostante il robot.

Simultaneous Localization And Mapping (SLAM)

 

La vera sfida in questi anni non è stata semplicemente convertire le proprietà dell’ottica in algoritmi, ma capire come permettere ad un robot di localizzare se stesso all’interno di uno spazio. Questa capacità infatti ha come radici problemi estremamente più complessi che sfociano in altre discipline che sono attualmente al centro dello studio della comunità scientifica. I ricercatori infatti stanno cercando di adottare metodi basati sul deep learning, in particolare sulle convolutional neural networks dette CNNs anche se l’approccio comunemente utilizzato è quello di trasformare le immagini in documenti di testo in cui le caratteristiche cromatiche di unimmagine (i landmarks) non sono altro che delle parole. Analogamente a una borsa che contiene degli oggetti in maniera disordinata, le bag of words sono vettori sparsi, paragonabili a degli istogrammi archiviati in un database chiamato vocabolario. La parte finale dell’algoritmo, comunemente chiamata loop closure, si prefigge l’obbiettivo di riconoscere un frame che è già stato processato, permettendo al dispositivo di accorgersi di essere tornato in un luogo precedentemente visitato.

La ricerca scientifica è in continua evoluzione, ogni anno vengono rilasciate versioni open source sempre più ottimizzate e facili da utilizzare. Appare quindi ovvio il motivo per cui questa tecnologia, raramente utilizzata negli anni novanta, sia esplosa ultimamente e sia destinata ad influenzare gli sviluppi futuri del mondo della robotica.

A cura di Simone Costante del VGen Engineering Hub