🇮🇹 IT

📋 Schema Extractor

Usa un modello AI per estrarre dati strutturati da testo non strutturato — come email, articoli, fatture o contenuti PDF. Definisci uno JSON Schema che descrive i campi desiderati; il modello legge il testo sorgente e compila lo schema. Il risultato è un oggetto strutturato pulito pronto per l'uso negli step successivi.

Categoria: Recupero Dati & Elaborazione · Identificatore tipo: schema_extractor

Panoramica

Un'enorme quantità di informazioni preziose risiede nel testo non strutturato: email dei clienti, ticket di supporto, fatture scansionate, note di riunioni, articoli di notizie. Il nodo Schema Extractor colma il divario tra testo libero e dati strutturati su cui il tuo workflow può agire.

Fornisci due cose: il testo sorgente (da uno step precedente o dal trigger), e uno JSON Schema che descrive la forma dell'output desiderato. Il modello AI legge il testo, trova le informazioni pertinenti e restituisce un oggetto strutturato che corrisponde al tuo schema.

Questo è più specializzato — e più affidabile — rispetto a chiedere a un nodo Agent generico di estrarre dati tramite JSON Mode. Lo Schema Extractor è progettato specificamente per attività di estrazione, gestendo casi limite come campi mancanti, formattazione varia e valori ambigui in modo più robusto rispetto a un prompt generico per agente.

Configurazione

Campo	Stato	Descrizione
Provider	Obbligatorio	Il Provider AI da usare per l'estrazione. Qualsiasi provider con un modello linguistico capace funziona. Per i migliori risultati, usa un modello noto per il rispetto delle istruzioni (es. GPT-4o, Claude).
Testo Sorgente	Obbligatorio	Il testo da cui estrarre. Supporta riferimenti `{{ variabile }}` — ad esempio `{{ email_trigger.output.body }}`, `{{ pdf_reader.output.content }}` o `{{ agent.output.text }}`.
Schema	Obbligatorio	Un oggetto JSON Schema che definisce la struttura di output attesa. Scrivilo come un oggetto JSON valido nel campo. Il modello tenterà di compilare ogni proprietà definita nello schema dal testo sorgente.

Dati di Output

Campo	Tipo	Descrizione
Campi dello schema	varia	Ogni proprietà definita nel tuo schema diventa un campo di primo livello nell'oggetto di output. Ad esempio, se il tuo schema definisce `vendor`, `total` e `line_items`, queste tre chiavi saranno presenti nell'output.
`raw_text`	string	Il testo sorgente originale passato all'estrattore. Utile per debug o audit trail.

// Se il tuo schema definisce: vendor, invoice_number, total, line_items {{ extract.output.vendor }} {{ extract.output.invoice_number }} {{ extract.output.total }} {{ extract.output.line_items }} // Accedi al testo sorgente elaborato {{ extract.output.raw_text }}

Esempio di Utilizzo

Estrazione dati fattura da un PDF

Un workflow riceve una fattura PDF tramite un trigger di monitoraggio file, estrae il testo da essa, e poi usa lo Schema Extractor per estrarre i campi finanziari chiave.

Leggi il contenuto del PDF. Usa un nodo Local File (o Google Drive) con il percorso del PDF dal trigger. L'output conterrà il testo estratto.
Aggiungi un nodo Schema Extractor. Imposta Provider e seleziona un modello capace. Imposta Testo Sorgente su {{ read_pdf.output.content }}.
Definisci lo schema:
{ "type": "object", "properties": { "vendor_name": { "type": "string", "description": "Name of the company issuing the invoice" }, "invoice_number": { "type": "string", "description": "Invoice reference number" }, "invoice_date": { "type": "string", "description": "Date of the invoice (ISO format if possible)" }, "due_date": { "type": "string", "description": "Payment due date" }, "subtotal": { "type": "number", "description": "Amount before tax" }, "tax": { "type": "number", "description": "Tax amount" }, "total": { "type": "number", "description": "Total amount due" }, "line_items": { "type": "array", "items": { "type": "object", "properties": { "description": { "type": "string" }, "quantity": { "type": "number" }, "unit_price": { "type": "number" }, "amount": { "type": "number" } } } } }, "required": ["vendor_name", "invoice_number", "total"] }
Usa i dati estratti. Fai riferimento a {{ extract_invoice.output.total }}, {{ extract_invoice.output.vendor_name }}, ecc. negli step successivi per creare record nel database, inviare notifiche o avviare workflow di approvazione.

Analisi di un'email di supporto

// Schema per estrarre dati strutturati da un'email di supporto clienti: { "type": "object", "properties": { "customer_name": { "type": "string" }, "product_affected": { "type": "string" }, "issue_summary": { "type": "string" }, "urgency": { "type": "string", "enum": ["low", "medium", "high", "critical"] }, "contact_email": { "type": "string" } } } // Poi riferisci in uno step di instradamento: {{ parse_email.output.urgency }} {{ parse_email.output.issue_summary }}

Suggerimenti e Note

Schema Extractor vs. Agent JSON Mode. Entrambi possono estrarre dati strutturati, ma lo Schema Extractor è la scelta giusta per attività di estrazione. Include istruzioni di sistema ottimizzate per l'estrazione, gestisce campi mancanti o ambigui in modo più appropriato ed è più affidabile quando lo schema è complesso. Usa Agent JSON Mode quando hai bisogno anche di ragionamento, sintesi o generazione oltre all'estrazione.
Usa hint description nel tuo schema. Aggiungere una proprietà description a ogni campo dello schema migliora significativamente l'accuratezza dell'estrazione. Il modello usa questi hint per capire cosa significa ogni campo e dove cercarlo nel testo.
Segna come required solo i campi veramente obbligatori. Se un campo potrebbe legittimamente non apparire in ogni documento (es. uno sconto su una fattura), non segnarlo come obbligatorio. I campi opzionali assenti verranno restituiti come null, che è più facile da gestire a valle rispetto a un'estrazione fallita.
Testa con campioni variati. Istanze diverse dello stesso tipo di documento (fornitori diversi, stili di email diversi) possono formattare le informazioni in modo molto diverso. Testa il tuo schema con diversi esempi rappresentativi prima del deploy.

Nodi Correlati

Agent — usa JSON Mode per attività di estrazione che richiedono anche ragionamento o generazione.
Transform — ristruttura ulteriormente l'output dell'estrattore se necessario.