Les dades no estructurades (o informació no estructurada) són informació que no té un model de dades predefinit o no està organitzada d'una manera predefinida. La informació no estructurada sol tenir una gran quantitat de text, però també pot contenir dades com ara dates, números i fets. Això es tradueix en irregularitats i ambigüitats que dificulten la comprensió de l'ús de programes tradicionals en comparació amb les dades emmagatzemades en camps a les bases de dades o anotades (etiquetats semànticament) en documents.
El 1998, Merrill Lynch va dir que "les dades no estructurades comprenen la gran majoria de les dades que es troben en una organització, algunes estimacions arriben fins al 80%".[1] No és clar quina és la font d'aquest nombre, però, tanmateix, alguns l'acceptan.[2] Altres fonts han informat de percentatges similars o més alts de dades no estructurades.[3][4]
Un projecte del 2012, IDC i Dell EMC que les dades creixeran fins a 40 zettabytes el 2020, donant lloc a un creixement de 50 vegades des de principis del 2010. Més recentment, IDC i Seagate prediuen que l'esfera de dades global augmentarà fins a 163 zettabytes el 2025 i la majoria estarà desestructurada. La revista Computer World afirma que la informació no estructurada podria representar més del 70-80% de totes les dades de les organitzacions.
Les primeres investigacions sobre intel·ligència empresarial es van centrar en dades textuals no estructurades, més que en dades numèriques.[5] Ja l'any 1958, els investigadors en informàtica com HP Luhn estaven especialment preocupats per l'extracció i classificació de textos no estructurats.[5] Tanmateix, només des del tombant de segle la tecnologia ha agafat l'interès de la recerca. El 2004, el SAS Institute va desenvolupar el SAS Text Miner, que utilitza la descomposició de valors singulars (SVD) per reduir un espai textual hiperdimensional a dimensions més petites per a una anàlisi de màquines significativament més eficient.[6] Els avenços matemàtics i tecnològics provocats per l'anàlisi textual de les màquines van impulsar diverses empreses a investigar aplicacions, donant lloc al desenvolupament de camps com l'anàlisi de sentiments, la mineria de veu del client i l'optimització del centre de trucades.[7] L'aparició del Big Data a finals de la dècada del 2000 va provocar un major interès per les aplicacions de l'anàlisi de dades no estructurades en camps contemporanis com l'anàlisi predictiva i l'anàlisi de causes arrels.[8]
El terme és imprecís per diversos motius: