COMPONENTI ELETTRONICI DI ORIGINE CON FIDUCIAApprovvigionamento autorizzato per circuiti integrati (CI), moduli IGBT, transistor, diodi e componenti passivi, supportato da stock reali e competenza in materia di approvvigionamento.: Supportare ingegneri e acquirenti con approvvigionamento affidabile e preventivi reattivi.RICHIEDI PREVENTIVO COMPONENTI

Elettronica visiva nei robot umanoidi in stile DOBOT Atom: telecamere RGB-D, rilevamento della profondità, visione AI e controllo in tempo reale

Jun16

Sfoglia: 353

I robot umanoidi come il DOBOT Atom si basano su elettronica visiva per catturare, elaborare, analizzare e interpretare informazioni visive dall'ambiente circostante. Anche se l'hardware specifico utilizzato nei diversi robot può variare, l'architettura visiva sottostante è spesso simile. Questo articolo spiega come i sensori delle telecamere, l'elettronica di elaborazione del segnale dell'immagine, i microcontrollori, gli SoC, i processori AI, le interfacce di comunicazione e i sistemi di controllo di retroazione lavorino insieme per supportare la percezione visiva e il funzionamento del robot in tempo reale. I modelli IC presentati nel corso dell'articolo sono esempi pratici di componenti comunemente utilizzati in applicazioni simili di elettronica visiva.

Catalogo

1. Cosa fanno le elettroniche visive nei robot umanoidi in stile DOBOT Atom

2. Catena di segnale visivo: dall'input della telecamera all'azione del robot

3. Modelli di telecamere e sensori di profondità: RGB, binoculare, RGB-D, ToF e LiDAR

4. ISP e SoC di visione per l'elaborazione dei dati della telecamera

5. Processori di visione AI per rilevamento oggetti, riconoscimento gesti e comprensione della scena

6. Interfacce di dati visivi: MIPI CSI-2, USB 3.1, Ethernet, GMSL e FPD-Link

7. Controllo della visione all'azione nei robot umanoidi

8. Modelli di elettronica visiva raccomandati per applicazioni di robot umanoidi

Vision Electronics Enable Perception in DOBOT Atom-Style Humanoid Robots

Figura 1. L'elettronica visiva abilita la percezione nei robot umanoidi in stile DOBOT Atom

Cosa fanno le elettroniche visive nei robot umanoidi in stile DOBOT Atom?

L'elettronica visiva nei robot umanoidi in stile DOBOT Atom segue una catena di segnale di acquisizione delle immagini, elaborazione, inferenza AI, trasferimento dei dati e retroazione di controllo. Il processo inizia quando i sensori delle telecamere catturano la luce e le informazioni visive dall'ambiente circostante. L'elettronica di elaborazione del segnale converte quindi l'output del sensore in dati immagine digitali e migliora la qualità dell'immagine tramite funzioni di filtraggio e miglioramento. I microcontrollori e gli SoC gestiscono il flusso dei dati visivi e li distribuiscono all'hardware di elaborazione AI. I processori AI analizzano le immagini per identificare oggetti, riconoscere volti e gesti, stimare la profondità e il movimento e comprendere l'ambiente. Le informazioni risultanti vengono inviate al sistema di controllo del robot, che regola la navigazione, l'evitamento degli ostacoli, l'interazione e il movimento in tempo reale.

Catena di segnale visivo: dall'input della telecamera all'azione del robot

From Camera Input to Robot Action

Figura 2. Dall'input della telecamera all'azione del robot

I sensori della fotocamera forniscono la principale fonte di informazioni visive nei robot umani in stile DOBOT Atom. Le informazioni disponibili pubblicamente indicano che il sistema di visione può incorporare diverse tecnologie di fotocamere, comprese fotocamere binocolo Full HD, fotocamere RGB, fotocamere RGB-D e moduli di rilevamento della profondità come l'Intel RealSense D455. Come parte fondamentale dell'elettronica di visione in stile DOBOT Atom, le fotocamere binocolo utilizzano sensori di immagine a doppia sincronizzazione per supportare la percezione della profondità e la localizzazione degli oggetti attraverso la visione stereoscopica, abilitando la funzionalità comunemente associata a un robot con visione binoculare. Le fotocamere RGB-D combinano l'imaging a colori con la misurazione della profondità per generare dati ambientali tridimensionali, rendendole adatte per un robot dotato di fotocamera RGB-D, mentre i moduli dedicati al rilevamento della profondità supportano le capacità di misurazione della distanza necessarie in un robot con fotocamera di profondità. Insieme, queste elettroniche di visione catturano informazioni visive per il rilevamento degli oggetti, la navigazione, l'evitamento degli ostacoli, la mappatura ambientale e i compiti di interazione uomo-robots.

Visione Fase	Cosa Succede	Esempi Dispositivi / Interfacce
Acquisizione dell'immagine	Converte la luce in dati di immagine	Sony IMX415, Sony IMX577, onsemi AR0234
Rilevamento della profondità	Misura la distanza o genera mappe di profondità	Intel RealSense D455, VL53L5CX
Interfaccia della fotocamera	Invia i dati dell'immagine al processore	MIPI CSI-2, USB 3.1, Ethernet
Elaborazione del segnale dell'immagine	Riduce il rumore, corregge l'esposizione, prepara i fotogrammi dell'immagine	i.MX 8M Plus ISP, RP1 interfaccia camera
Inferenza AI	Rileva oggetti, gesti, persone ed elementi della scena	Jetson Orin NX, Jetson Xavier NX, RZ/V2H, Hailo-8
Uscita di controllo	Invia coordinate o decisioni al controller del robot	MCU, SoC, Ethernet, CAN, controller di movimento

Modelli di fotocamera e sensori di profondità: RGB, Binoculare, RGB-D, ToF e LiDAR

RGB, Binocular, RGB-D, ToF, and LiDAR

Figura 3. RGB, Binoculare, RGB-D, ToF e LiDAR

Le fotocamere e i sensori di profondità forniscono il primo input visivo per i robot umani in stile DOBOT Atom. I sensori RGB catturano immagini a colori, le fotocamere binocolo stimano la profondità attraverso due punti di vista, le fotocamere RGB-D forniscono dati di colore e distanza, e i sensori ToF o LiDAR misurano la distanza degli oggetti attraverso la luce riflessa. Questi dispositivi forniscono solo fotogrammi immagine, mappe di profondità o valori di distanza. L'ISP, l'elaborazione AI e le decisioni di controllo del robot sono trattate nelle sezioni seguenti.

Tipo di sensore	Modello di esempio	Produttore	Utilizzo della visione
Sensore di immagine RGB	Sony IMX415	Sony	Acquisizione di immagini ad alta risoluzione
Sensore di immagine RGB	Sony IMX577	Sony	Moduli di fotocamera di visione integrata
Sensore con otturatore globale	AR0234CS	onsemi	Acquisizione di oggetti in movimento con meno distorsione
Modulo fotocamera RGB-D	Intel RealSense D455	Intel	Rilevamento della profondità e localizzazione degli oggetti
Sensore Multi-Zona ToF	VL53L5CX	STMicroelectronics	Rilevamento a profondità a breve distanza
Sensore di distanza ToF	VL53L1X VL53L1X ST 1141 In Stock: 16437 pcs	STMicroelectronics	Consapevolezza della prossimità e delle collisioni
Modulo LiDAR	TFMini-S	Benewake	Rilevamento della distanza compatto
Modulo LiDAR 2D	RPLIDAR A1 / A2	Slamtec	Mappatura e scansione di ostacoli più ampia

ISP e SoC di Visione per l'elaborazione dei dati della fotocamera

ISP and Vision SoCs for Camera Data Processing

Figura 4. ISP e SoC di Visione per l'elaborazione dei dati della fotocamera

Gli ISP (Image Signal Processor) e i dispositivi Vision SoC (System-on-Chip) elaborano i dati delle immagini grezze catturati dai sensori della fotocamera prima che vengano utilizzati da algoritmi di visione artificiale e AI. Questi dispositivi svolgono funzioni come riduzione del rumore, controllo dell'esposizione, correzione del colore, regolazione del bilanciamento del bianco, elaborazione HDR, miglioramento dell'immagine, ridimensionamento dell'immagine e formattazione video. I Vision SoC gestiscono anche le interfacce delle fotocamere, coordinano il flusso dei dati, eseguono algoritmi di visione e supportano compiti di inferenza AI come il rilevamento degli oggetti, il riconoscimento facciale, il tracciamento dei gesti, la stima della profondità e la comprensione della scena. Nei robot umani, i dispositivi ISP e Vision SoC aiutano a convertire l'output del sensore grezzo in informazioni visive utilizzabili per la navigazione, la consapevolezza ambientale, l'evitamento degli ostacoli e l'interazione uomo-robot.

Modello	Produttore	Posizione Corretta	Ruolo di Elaborazione
i.MX 8M Plus	NXP	Vision SoC con doppio ISP e NPU	Ingresso della fotocamera, elaborazione ISP, ridimensionamento dell'immagine e inferenza di visione incorporata
RP1	Raspberry Pi	Raspberry Pi 5 / CM5 I/O controller	Input camera CSI-2, gestione dei dati dell'immagine e funzioni front-end ISP
CV1800B	CVITEK	Piattaforma Edge vision SoC / ISP	Elaborazione di immagini a basso costo e applicazioni di visione incorporata
Ambarella CV22	Ambarella	Vision SoC con integrazione ISP e accelerazione della visione AI	Elaborazione video, gestione delle immagini della fotocamera e carichi di lavoro di visione incorporata

Processori AI per il riconoscimento degli oggetti, il riconoscimento dei gesti e la comprensione della scena

AI Processors for Visual and Gesture Recognition and Scene Understanding

Figura 5. Processori AI per il riconoscimento visivo e dei gesti e la comprensione della scena

I processori AI forniscono la potenza di calcolo necessaria per la percezione visiva e il processo decisionale nei robot umanoidi in stile DOBOT Atom. Basandosi su informazioni pubblicamente disponibili, questi sistemi supportano la tecnologia Vision-Language-Action (VLA), che combina la percezione visiva, la comprensione del linguaggio e la generazione di azioni all'interno di un framework AI unificato. Dopo che telecamere, sensori RGB-D e LiDAR raccolgono dati ambientali, i processori AI eseguono algoritmi di visione artificiale per il riconoscimento degli oggetti, il riconoscimento facciale, il riconoscimento dei gesti, la stima della profondità, la comprensione della scena, il tracciamento della postura corporea, l'analisi del movimento delle mani e la consapevolezza degli ostacoli. Il riconoscimento dei gesti consente al robot di identificare segnali manuali, direzioni di punta, movimenti di saluto e altre azioni umane per un'interazione senza contatto e avvio dei compiti. Le informazioni elaborate aiutano il robot a localizzare oggetti, riconoscere individui, interpretare gesti, comprendere l'ambiente circostante e supportare compiti di manipolazione e navigazione. Le piattaforme di calcolo AI ad alte prestazioni consentono a queste funzioni di operare in tempo reale, supportando un comportamento robotico autonomo e interattivo.

I modelli IC sopra sono esempi rappresentativi comunemente utilizzati per l'elaborazione della visione AI in applicazioni robotiche e di visione incorporata.

Interfacce di dati di visione: MIPI CSI-2, USB 3.1, Ethernet, GMSL e FPD-Link

MIPI CSI-2, USB 3.1, Ethernet, GMSL, and FPD-Link

Figura 6. MIPI CSI-2, USB 3.1, Ethernet, GMSL e FPD-Link

Le interfacce di dati di visione trasferiscono dati di immagine e sensore tra telecamere, processori e sistemi di controllo all'interno dei robot umanoidi. Dopo che i sensori delle telecamere catturano informazioni visive, le interfacce di comunicazione trasportano i dati delle immagini a microcontrollori, processori di visione e piattaforme di calcolo AI per ulteriori analisi. Queste interfacce devono supportare elevati tassi di trasferimento dati, bassa latenza e comunicazione affidabile per consentire la percezione visiva in tempo reale, la navigazione, il tracciamento degli oggetti, il riconoscimento dei gesti e il controllo del robot all'interno di un sistema di visione robotico.

Esempi comuni includono MIPI CSI-2 per connessioni dirette ad alta velocità da telecamera a processore, USB 3.1 per telecamere di visione ad alta larghezza di banda e Ethernet Gigabit per sistemi di telecamere basati su rete. Per applicazioni che richiedono lunghezze di cavo più lunghe e maggiore immunità al rumore, GMSL (Gigabit Multimedia Serial Link) e FPD-Link III sono ampiamente utilizzati per trasmettere video, dati di controllo e segnali di sincronizzazione tra telecamere distribuite e unità di elaborazione. Queste interfacce aiutano a garantire che i dati visivi vengano consegnati in modo accurato ed efficiente in tutto il sistema di visione robotica. Gli IC di interfaccia elencati nella tabella sottostante sono esempi rappresentativi utilizzati in applicazioni di visione e robotica.

Funzione dell'interfaccia	Prodotto di esempio	Fabbricante	Ruolo principale
Controller interfaccia USB 3.1	CYUSB3014-BZXI / EZ-USB FX3	Infineon Technologies	Trasferimento ad alta velocità dei dati di immagine tra l'hardware della fotocamera e i processori ospiti
PHY Ethernet Gigabit	KSZ9031RNX KSZ9031RNX N/A MICRCOHIP QFN48 In Stock: 113 pcs	Microchip Technology	PHY Ethernet 10/100/1000 Mbps per sistemi di visione in rete
Serializzatore GMSL	MAX9295A	Analog Devices	Trasmissione video della telecamera a lunga distanza
Deserializzatore GMSL	MAX9296A	Analog Devices	Riceve dati video della telecamera serializzati
Serializzatore FPD-Link III	DS90UB953-Q1 DS90UB953-Q1 TEXAS INSTRUMENTS 583 In Stock: 32450 pcs	Texas Instruments	Serializzatore per la trasmissione ad alta velocità dei dati di immagine
Deserializzatore FPD-Link III	DS90UB954-Q1 DS90UB954-Q1 TEXAS INSTRUMENTS 583 In Stock: 32550 pcs	Texas Instruments	Riceve e aggrega dati della telecamera ad alta velocità
Controller wireless	ESP32 ESP32 ESP In Stock: 23322 pcs	Espressif Systems	Configurazione wireless a bassa velocità, monitoraggio o scambio di dati ausiliari

Controllo Vision-to-Action nei robot umanoidi

Vision-to-Action Control Flow in Humanoid Robots

Figura 7. Flusso di controllo Vision-to-Action nei robot umanoidi

Dopo che le telecamere, i sensori di profondità e i processori AI identificano oggetti, ostacoli, gesti o movimenti all'interno dell'ambiente, le informazioni di controllo risultanti devono essere consegnate al sistema di movimento del robot per l'azione fisica. L'elettronica di comunicazione fornisce il percorso per trasferire i dati tra i processori di visione, i controller di sistema, i sensori e i sotto-sistemi degli attuatori. Come parte chiave dell'elettronica visiva dei robot umani, questi dispositivi trasferiscono le coordinate degli oggetti, le posizioni bersaglio, le posizioni degli ostacoli, le traiettorie di movimento e i comandi di navigazione generati dall'analisi visiva, consentendo risposte in tempo reale alle mutevoli condizioni ambientali.

Per i dati delle telecamere ad alta larghezza di banda, il livello di visione può utilizzare USB, Ethernet, GMSL, FPD-Link o MIPI CSI-2 a seconda della posizione della telecamera, della lunghezza del cavo, del livello di rumore e dell'architettura di elaborazione. I collegamenti wireless a bassa velocità possono gestire monitoraggio o configurazione, ma non dovrebbero essere trattati come il percorso principale per i flussi video delle telecamere in tempo reale.

Ad esempio, se una persona indica un oggetto specifico, le telecamere del robot e i processori di visione AI possono riconoscere il gesto, determinare la posizione dell'oggetto e calcolare la sua posizione all'interno dell'ambiente circostante. L'elettronica di comunicazione trasferisce quindi queste informazioni al controller del robot, che genera comandi di movimento per le braccia, le mani o il sistema di locomozione. Il robot può successivamente avvicinarsi all'obiettivo, evitare ostacoli lungo il percorso e svolgere azioni come raccogliere, ispezionare o consegnare l'oggetto. Questa sequenza dimostra come la percezione visiva venga convertita in azione fisica coordinata in tempo reale.

Modelli di Elettronica Visiva Raccomandati per Applicazioni Robotiche Umane

I sistemi di visione si basano su più tipi di circuiti integrati per catturare, elaborare, analizzare e trasmettere informazioni visive. Sebbene l'hardware specifico utilizzato in DOBOT Atom non sia stato reso pubblico, i seguenti prodotti e componenti rappresentano esempi comunemente trovati in architetture di visione robotica simili e possono eseguire funzioni comparabili a quelle richieste in un sistema di visione DOBOT Atom.

Il nostro sito web fornisce molti dei modelli di elettronica visiva elencati di seguito, inclusi sensori di immagine, processori di visione AI, circuiti integrati di interfaccia e PHY Ethernet. Puoi contattarci per prezzi, disponibilità e alternative compatibili per prototipazione o esigenze di produzione.

Prodotti e Componenti di Elettronica Visiva Esempi

Funzione Visiva	Prodotto Esemplare	Produttore	Ruolo Primario
Sensore di Telecamera RGB	Sony IMX415	Sony Semiconductor Solutions	Cattura dati di immagine ad alta risoluzione per l'individuazione di oggetti e la percezione visiva
Sensore di Telecamera RGB	Sony IMX577	Sony Semiconductor Solutions	Cattura dell'immagine di alta qualità per sistemi di visione robotica
Sensore di Telecamera a Otturatore Globale	AR0234CS	onsemi	Cattura di immagini favorevole al movimento con distorsione ridotta del movimento
Sensore di Profondità (ToF)	VL53L5CX	STMicroelectronics	Misurazione della distanza e generazione di mappe di profondità
Telecamera RGB-D	Intel RealSense D455	Intel	Acquisizione simultanea di immagini a colori e rilevamento della profondità
Vision SoC / ISP	i.MX 8M Plus	NXP Semiconductors	Elaborazione del segnale dell'immagine, visione integrata e accelerazione AI
Vision SoC / ISP	CV1800B	CVITEK	Elaborazione delle telecamere e applicazioni di visione integrata
Controller dell'Interfaccia della Telecamera	RP1	Raspberry Pi	Interfaccia della telecamera CSI-2 e gestione dei dati delle immagini
Microcontrollore	STM32H743ZIT6 STM32H743ZIT6 STMicroelectronics IC MCU 32BIT 2MB FLASH 144LQFP In Stock: 5338 pcs	STMicroelectronics	Controllo della telecamera, sincronizzazione dei sensori e coordinazione del sistema
Processore di Visione AI	Jetson Orin NX 16GB	NVIDIA	Inferenza AI in tempo reale, individuazione di oggetti e comprensione della scena
	Jetson Xavier NX	NVIDIA	Visione AI integrata e elaborazione multi-telecamera
	RZ/V2H	Renesas	Elaborazione visiva basata su AI con acceleratore DRP-AI integrato
Acceleratore AI	Hailo-8	Hailo	Inferenza AI edge a bassa potenza per carichi di lavoro visivi
	Myriad X MA2485	Intel	Accelerazione della visione artificiale e elaborazione delle reti neurali
	Coral Edge TPU	Google	Accelerazione AI edge per il riconoscimento di oggetti e gesti
Controller dell'Interfaccia USB 3.1	CYUSB3014-BZXI (EZ-USB FX3)	Infineon Technologies	Trasferimento di immagini ad alta velocità tra telecamere e processori
PHY Ethernet	KSZ9031RNX KSZ9031RNX N/A MICRCOHIP QFN48 In Stock: 113 pcs	Microchip Technology	Comunicazione Ethernet Gigabit per sistemi di visione
Serializzatore GMSL	MAX9295AFTN/V+	Analog Devices	Trasmissione a lungo raggio dei dati video della camera
Deserializzatore FPD-Link III	DS90UB954-Q1 DS90UB954-Q1 TEXAS INSTRUMENTS 583 In Stock: 32550 pcs	Texas Instruments	Ricezione e elaborazione dei dati della camera ad alta velocità
Controllore di comunicazione wireless	ESP32 ESP32 ESP In Stock: 23322 pcs	Espressif Systems	Scambio di dati wireless, monitoraggio remoto e networking di sensori
Deserializzatore GMSL	MAX9296A	Analog Devices	Riceve dati video della camera serializzati dai link GMSL
Serializzatore FPD-Link III	DS90UB953-Q1 DS90UB953-Q1 TEXAS INSTRUMENTS 583 In Stock: 32450 pcs	Texas Instruments	Trasmette dati del sensore della camera ad alta velocità tramite FPD-Link III
Sensore di profondità (ToF)	VL53L1X VL53L1X ST 1141 In Stock: 16437 pcs	STMicroelectronics	Sensing della distanza ToF a lungo raggio per rilevazione della prossimità e consapevolezza delle collisioni
Modulo LiDAR	TFMini-S	Benewake	Sensing della distanza LiDAR compatto per rilevamento degli ostacoli e supporto alla navigazione dei robot
Modulo LiDAR 2D	RPLIDAR A1 / A2	Slamtec	Scansione su aree più ampie, mappatura e consapevolezza degli ostacoli per piattaforme di robot mobili
SoC Vision embedded / Processore AI	RK3588 RK3588 ROCKCH 867 In Stock: 729 pcs	Rockchip	Elaborazione vision embedded basata su NPU per piattaforme di visione robotica sensibili ai costi

I modelli di IC elencati sopra sono esempi rappresentativi comunemente utilizzati nelle applicazioni di visione artificiale, visione embedded e robotica. Se desideri una spiegazione più ampia dell'elettronica di visione nei robot umanoidi, inclusi sensori per fotocamera, processori AI, sensing della profondità e controllo visione-azione, leggi la nostra guida completa su elettronica del DOBOT Atom e dei robot umanoidi.

Domande frequenti [FAQ]

1. Cos'è l'elettronica di visione in un robot umanoide?

L'elettronica di visione è la catena hardware che cattura dati di immagine o di profondità, elabora i segnali della fotocamera, esegue algoritmi di visione AI e invia i risultati visivi al controller del robot per la navigazione, il tracciamento degli oggetti, il riconoscimento dei gesti o la manipolazione.

2. Perché i robot in stile DOBOT Atom utilizzano fotocamere RGB-D o fotocamere per la profondità?

Le fotocamere RGB-D e per la profondità forniscono sia immagini a colori che informazioni sulla distanza. Questo aiuta i robot umanoidi a stimare la posizione degli oggetti, rilevare ostacoli, mappare lo spazio circostante e supportare la coordinazione mano-occhio.

3. Qual è la differenza tra un sensore d'immagine, un ISP e un processore AI?

Un sensore d'immagine cattura la luce, un ISP prepara l'immagine tramite controllo dell'esposizione e riduzione del rumore, e un processore AI esegue compiti di riconoscimento come rilevamento di oggetti, riconoscimento facciale, rilevamento di gesti o comprensione della scena.

4. Intel RealSense D455 è un IC o un modulo fotocamera?

Intel RealSense D455 è un modulo fotocamera di profondità stereo, non un singolo IC. Fornisce dati RGB e di profondità tramite un'interfaccia USB e può essere utilizzato come esempio di sensing RGB-D nei sistemi di visione robotica.

5. Come diventano i dati di visione il movimento del robot?

Il processore di visione fornisce informazioni come coordinate degli oggetti, mappe di profondità, risultati di tracciamento o etichette di gesti. Il controller del robot converte queste informazioni in obiettivi di movimento, aggiornamenti di navigazione o comandi di presa, mentre i controller di motore e giunto eseguono il movimento.