Human-Robot Collaboration: From Collaborative Robotics in SMEs to AI-Driven Natural Interaction

Polonara, Mirco

The activities presented in this Ph.D. thesis investigates how collaborative robotics can be introduced into small and medium sized enterprises to increase productivity and flexibility while keeping human operators at the center of the production system. The work follows a three stage progression, from fixed collaborative cells to mobile robotic platforms and, finally, to an AI enabled grasping pipeline driven by vision language models. The first part of the thesis examines a collaborative robotic cell deployed at a vibrating plastic welding station. By combining small buffer zones, vision based picking, and simulation guided trajectory design, the cell is able to exploit machine idle time for unattended operation. The study shows that a carefully designed collaborative setup can substantially reduce the manual effort required from the operator without compromising safety or product quality, and can later be adapted to new products with limited reconfiguration. The second part extends collaboration to a mobile platform that serves multiple stations in an automotive context. A mobile collaborative robot is designed and evaluated in simulation, redistributing periods of operator waiting time into productive handling activities. The results indicate that, with appropriate planning of routes and station visits, a single mobile platform can significantly reduce direct operator involvement in small and medium batch scenarios and support the reallocation of human work toward supervision and inspection. The final part introduces VL-GRiP3, a modular grasping pipeline that links natural language instructions to robot execution by combining compact vision language models, CAD based point cloud registration, and six degree of freedom grasp planning. The architecture separates perception, registration, grasp prediction, and action synthesis into independently updatable modules. Experiments on a UR3 robot with an industrial gripper demonstrate that VL-GRiP3 can reliably execute grasp and place tasks on real manufactured components while offering greater transparency and data efficiency. Together, these contributions show that collaborative robots, mobile platforms, and modular vision language pipelines can be combined to deliver practical, human centred automation in small and medium sized enterprises, aligning industrial practice with the principles of Industry 5.0.

Le attività presentate in questa tesi di dottorato esaminano come la robotica collaborativa possa essere introdotta nelle piccole e medie imprese per aumentare produttività e flessibilità, mantenendo al contempo gli operatori umani al centro del sistema produttivo. Il lavoro segue una progressione in tre fasi, dalle celle collaborative fisse alle piattaforme robotiche mobili e, infine, a una pipeline di presa abilitata dall’IA e guidata da modelli visione-linguaggio. La prima parte della tesi analizza una cella robotica collaborativa implementata presso una stazione di saldatura plastica a vibrazione. Combinando piccole zone di buffer, prelievo basato sulla visione e progettazione delle traiettorie guidata dalla simulazione, la cella è in grado di sfruttare i tempi morti della macchina per un funzionamento non presidiato. Lo studio mostra che un assetto collaborativo progettato con attenzione può ridurre in modo sostanziale lo sforzo manuale richiesto all’operatore senza compromettere la sicurezza o la qualità del prodotto, e può essere successivamente adattato a nuovi prodotti con una limitata riconfigurazione. La seconda parte estende la collaborazione a una piattaforma mobile che serve più stazioni in un contesto automotive. Un robot mobile collaborativo viene progettato e valutato in simulazione, redistribuendo i periodi di attesa dell’operatore in attività produttive di movimentazione. I risultati indicano che, con una pianificazione adeguata dei percorsi e delle visite alle stazioni, una singola piattaforma mobile può ridurre in misura significativa il coinvolgimento diretto dell’operatore in scenari a piccoli e medi lotti e supportare la riallocazione del lavoro umano verso attività di supervisione e ispezione. La parte finale introduce VL-GRiP3, una pipeline di presa modulare che collega istruzioni in linguaggio naturale all’esecuzione robotica combinando modelli visione-linguaggio compatti, registrazione della nuvola di punti basata su CAD e pianificazione della presa a sei gradi di libertà. L’architettura separa percezione, registrazione, predizione della presa e sintesi dell’azione in moduli aggiornabili in modo indipendente. Esperimenti su un robot UR3 con un gripper industriale dimostrano che VL-GRiP3 è in grado di eseguire in modo affidabile compiti di presa e rilascio su componenti reali prodotti industrialmente, offrendo al contempo maggiore trasparenza ed efficienza nell’uso dei dati. Considerati nel loro insieme, questi contributi mostrano che robot collaborativi, piattaforme mobili e pipeline modulari visione-linguaggio possono essere combinati per fornire un’automazione pratica e centrata sulla persona nelle piccole e medie imprese, allineando la pratica industriale ai principi dell’Industry 5.0.

Human-Robot Collaboration: From Collaborative Robotics in SMEs to AI-Driven Natural Interaction / Polonara, Mirco. - (2026 Mar 19).