Il campo del Text-to-SQL ha un problema di misurazione

TL;DR Il text-to-SQL è ovunque, ma lo misuriamo male. Exact Match ti penalizza se scrivi users AS u. Execution Accuracy non si interessa se hai azzeccato 99 righe su 100 — sbagliato è sbagliato. Abbiamo costruito QAS (Query Accuracy Score): un punteggio continuo che combina similarità semantica code-aware (quanto è vicino il SQL?) con similarità di tabella basata su edit-distance (quanto è vicina la risposta?). Testato su 11 modelli su BIRD, QAS rivela differenze enormi che le metriche binarie schiacciano nello stesso numero. Un campo costruito su lanci di moneta Il text-to-SQL è una di quelle aree dove le demo sembrano magiche. Scrivi una domanda in italiano, ottieni una query SQL, ottieni una risposta dal tuo database. Niente DBA. La promessa è enorme. ...

luglio 2, 2025 · 6 minuti · Giovanni Pinna