Todo processo de coleta de dados tem um objetivo. O objetivo, naturalmente, é a explicação que a investigação quer alcançar. Nos casos de geração de tecnologia de base científica, que é a razão de existência do método científico-tecnológico, os objetivos da investigação é duplamente focado. Há os objetivos explicativos, alcançados através dos estudos científicos, e os gerativos, através das prototipagens e seus necessários testes e ajustes. Do ponto de vista da ciência, as explicações são geradas através do manuseio de dados empíricos. Como foi mostrado até aqui, primeiro é construída uma arquitetura teórica com base nos conhecimentos disponíveis nas bases científicas de dados para, em seguida, essa arquitetura ser testada em sua consistência. Esse teste é sempre realizado com o auxílio de algum instrumento de coleta de dados. É esse instrumento que será focado para o fenômeno para que se possa registrar e medir o seu comportamento. Por exemplo, radiotelescópios são instrumentos com esse intuito, assim como os questionários e roteiros de entrevistas. A finalidade desses instrumentos, portanto, é coletar os dados, que são os tijolos com os quais construímos as explicações científicas.
Não importa qual seja a área do conhecimento e muito menos o fenômeno que se queira conhecer: sem coleta de dados não há ciência. E os dados a serem coletados são de quatro tipos possíveis. É fundamental que todo cientista conheça com precisão cada um deles, para que possa, acima de tudo, construir instrumentos de coleta válidos e fidedignos. Validade e fidedignidade são as duas condições para que um instrumento possa ser considerado válido, cujos dados coletados possam efetivamente serem utilizados na construção da explicação desejada. Isso quer dizer que todo instrumento de coleta de dados é a conjunção desses quatro tipo, de maneira que quando o cientista se coloca determinado problema já deve saber, de antemão, os tipos de dados empíricos de que precisa para poder construir o conhecimento pretendido. A revisão da literatura, por sua vez, vai confirmar aquela confiança de primeira mão, tanto que é a arquitetura que dela provém que vai estar materializada no instrumento criado.
O primeiro e mais simples tipo de dados é o nominal. Como a própria nomenclatura denuncia, dados nominais são aqueles relativos a nomes. João é um dado dos alunos que fazem parte de uma turma, assim como Maria, José e Arnaldo. Masculino é um dado comum a João, José e Arnaldo, enquanto Feminino é outro dado daquela turma, mas que só cabe a Maria. Louro é um dado que só pode ser verificado nos alunos Arnaldo e João, enquanto Ruivo é outro dado aplicado a José e Morena é dado coletado de Maria. A variedade dos dados nominais é tanta que estão presentes em inúmeros questionários em que apenas nomes estão contidas nas categorias que representam as respostas possíveis. Esses dados são simples porque eles só permitem três tipos de medidas: a contagem de suas frequências, que são a quantidade de ocorrências, o percentual dessas frequências e a moda, que é a categoria mais frequente. E nada mais. Esse tipo de dados também é chamado de qualitativo e categórico. Eles são coletados, por exemplo, para as questões estruturais de pesquisa.
Os dados ordinais são os segundos mais simples. Eles permitem que se calcule tudo o que os dados nominais permitem, mais a mediana e os quartis. E nada mais. Por isso também são simples. Seu nome advém do fato de designarem ordem: primeiro, segundo, terceiro etc. Também são os casos de ordenamentos do tipo campeão, vice-campeão, terceiro colocado e assim sucessivamente, como acontecimento nas competições esportivas. Esses dados são muito importantes para as questões processuais, que se caracterizam pelo entendimento do sequenciamento lógico de etapas que são percorridas para a geração de todo produto ou serviço. Em estudos bibliométricos, por exemplo, são utilizados bastante esse tipo de dados para que se conheçam os principais fatores explicativos de qualquer arranjo teórico. São também dados qualitativos.
Os dados intervalares são o terceiro tipo de dados. Esse já é um tipo de dado bastante robusto. A robustez é uma característica vinculada, primeiro, à versatilidade de manuseio do dado para gerar diferentes formas explicativas e, segundo, à convergência dessas diferentes medidas para o entendimento multivariado do fenômeno ou de seu comportamento. A principal característica dos dados intervalares é a apresentação de um zero artificial. Por exemplo, quando se mede o grau de motivação das pessoas, há um intervalo que vai da absoluta falta de motivação, que corresponde ao lado esquerdo de uma reta numerada, e a absoluta presença de motivação, que representa o lado direito. O centro da escala é artificial, uma mistura de 50% de motivação e 50% de falta de motivação, o que dá um zero artificial. Com esses dados podemos calcular tudo o que as medidas ordinais permitem, mais todas as estatísticas uni e multivariadas e quase toda sorte de equações matemáticas. São também dados qualitativos.
O quarto tipo de dados é chamado racional. Sua principal característica é apresentar um zero. Isso quer dizer que com eles podemos fazer qualquer tipo de cálculo. É com esse tipo de dados que fazemos os famosos estudos quantitativos, porque geram dados quantitativos. A idade de uma pessoa é um tipo dessa categoria (existe quem tenha zero ano), da mesma forma que a temperatura (existe temperatura zero e negativa), saldo bancário (existe saldo negativo e saldo zero) e assim por diante.
Fazer ciência é medir. Quando comparamos ideias estamos medindo, da mesma forma quando fazemos agrupamentos dos fatores que levaram ao fracasso escolar. Medimos também para podermos afirmar que uma política educacional é mais efetiva do que a outra. A consistência das descobertas científicas depende do domínio que o cientista tem desses quatro tipo de dados. É esse domínio que vai determinar o cálculo preciso que precisa ser feito para gerar as respostas desejadas. Domínio esse em que quase todos os pesquisadores fracassam. Menos os cientistas.