Usa un modello AI per estrarre dati strutturati da testo non strutturato — come email, articoli, fatture o contenuti PDF. Definisci uno JSON Schema che descrive i campi desiderati; il modello legge il testo sorgente e compila lo schema. Il risultato è un oggetto strutturato pulito pronto per l'uso negli step successivi.
schema_extractorUn'enorme quantità di informazioni preziose risiede nel testo non strutturato: email dei clienti, ticket di supporto, fatture scansionate, note di riunioni, articoli di notizie. Il nodo Schema Extractor colma il divario tra testo libero e dati strutturati su cui il tuo workflow può agire.
Fornisci due cose: il testo sorgente (da uno step precedente o dal trigger), e uno JSON Schema che descrive la forma dell'output desiderato. Il modello AI legge il testo, trova le informazioni pertinenti e restituisce un oggetto strutturato che corrisponde al tuo schema.
Questo è più specializzato — e più affidabile — rispetto a chiedere a un nodo Agent generico di estrarre dati tramite JSON Mode. Lo Schema Extractor è progettato specificamente per attività di estrazione, gestendo casi limite come campi mancanti, formattazione varia e valori ambigui in modo più robusto rispetto a un prompt generico per agente.
| Campo | Stato | Descrizione |
|---|---|---|
| Provider | Obbligatorio | Il Provider AI da usare per l'estrazione. Qualsiasi provider con un modello linguistico capace funziona. Per i migliori risultati, usa un modello noto per il rispetto delle istruzioni (es. GPT-4o, Claude). |
| Testo Sorgente | Obbligatorio | Il testo da cui estrarre. Supporta riferimenti {{ variabile }} — ad esempio {{ email_trigger.output.body }}, {{ pdf_reader.output.content }} o {{ agent.output.text }}. |
| Schema | Obbligatorio | Un oggetto JSON Schema che definisce la struttura di output attesa. Scrivilo come un oggetto JSON valido nel campo. Il modello tenterà di compilare ogni proprietà definita nello schema dal testo sorgente. |
| Campo | Tipo | Descrizione |
|---|---|---|
| Campi dello schema | varia | Ogni proprietà definita nel tuo schema diventa un campo di primo livello nell'oggetto di output. Ad esempio, se il tuo schema definisce vendor, total e line_items, queste tre chiavi saranno presenti nell'output. |
raw_text | string | Il testo sorgente originale passato all'estrattore. Utile per debug o audit trail. |
Un workflow riceve una fattura PDF tramite un trigger di monitoraggio file, estrae il testo da essa, e poi usa lo Schema Extractor per estrarre i campi finanziari chiave.
{{ read_pdf.output.content }}.
{{ extract_invoice.output.total }}, {{ extract_invoice.output.vendor_name }}, ecc. negli step successivi per creare record nel database, inviare notifiche o avviare workflow di approvazione.
description nel tuo schema. Aggiungere una proprietà description a ogni campo dello schema migliora significativamente l'accuratezza dell'estrazione. Il modello usa questi hint per capire cosa significa ogni campo e dove cercarlo nel testo.
required solo i campi veramente obbligatori. Se un campo potrebbe legittimamente non apparire in ogni documento (es. uno sconto su una fattura), non segnarlo come obbligatorio. I campi opzionali assenti verranno restituiti come null, che è più facile da gestire a valle rispetto a un'estrazione fallita.