Registro em tempos de crise – XII – Digitalização de títulos – metadados mínimos

No último post examinamos o Anexo I do Decreto nº 10.278/2020,  a fim de penetrar nos sentidos que se podem extrair do chamados títulos “digitalizados com padrões técnicos” (art. 4º do Provimento CNJ 94/2020).

Os chamados “padrões técnicos de digitalização” foram estabelecidos com o fim de “garantir a qualidade da imagem, da legibilidade e do uso do documento digitalizado” e figuram nos anexos do Decreto nº 10.278/2020.

Quais é a origem desse conjunto de regras e pressupostos que subjaz aos anexos do dito decreto? Eu sugeri no artigo anterior (Registro em tempos de crise XI) que esse conjunto de prescrições técnicas é oriundo do CONARQ e que o ONR deveria integrar o próprio SINAR – Sistema Nacional de Arquivos. Remeto o leitor para aquele artigo.

Vamos dar mais um passo, agora em direção ao Anexo II que nos revela uma tabela de metadados mínimos exigidos para os documentos digitalizados.

Anexo II
METADADOS[1] MÍNIMOS EXIGIDOS PARA TODOS OS DOCUMENTOS

METADADOSDEFINIÇÃO
Assunto[2]Palavras-chave[3] que representam o conteúdo do documento[4]. Pode ser de preenchimento livre ou com o uso de vocabulário controlado ou tesauro[5].

[1] – Metadados – o que são?

Metadados são dados estruturados que permitem classificar, descrever e gerenciar documentos – sejam eles natodigitais, digitalizados ou tradicionais. São dados sobre dados. Segundo a definição de HOUAISS, metadado é um “dado ou conjunto de dados sobre outro dado ou dados (p.ex., uma descrição de sua estrutura, características ou uma informação que torne tal dado inteligível, p.ex., para um computador)”.

Os metadados (ou metainformação) são informações adicionais que são acrescidas ao texto principal com a finalidade de organizá-lo e permitir a mais fácil e precisa identificação, localização e acesso. Para os cartorários, um bom exemplo será a praxe rotineira de se indicar, ao lado de cada ato praticado na matrícula, a natureza do título material (R.1/999.999 – venda e compra/doação/partilha etc.). São metadados que auxiliam a classificação e localização por toda a matrícula da natureza dos atos inscritos.

[2] [3] – Assunto. Palavras-chave.

As palavras-chave devem fazer parte de um bom sistema de identificação, classificação e organização de dados. Não tem sentido referir à expressão, certamente emprestada da biblioteconomia e da ciência da informação, sem aludir, ainda que brevemente, ao sistema taxonômico a que pertence.

A expressão taxonomia[1] nasceu no seio das ciências naturais – especialmente biológicas e botânicas – como classificação de formas vivas. Esse conceito alcançou os sistemas de tecnologia da informação buscando a hierarquização e classificação dos elementos de um dado sistema de informação e comunicação.

“A taxonomia pode ser considerada como uma estrutura que possibilita classificar objetos, seres vivos, coleções de livros ou documentos em grupos ordenados hierarquicamente, a fim de possibilitar sua identificação, localização e acesso. Pode também ser definida como um sistema de classificação que apoia o acesso à informação, permitindo alocar, recuperar e comunicar informações em um sistema, de maneira lógica”[2].

O homem comum do povo e a taxonomia do documento digitalizado

Vimos que taxonomia é, por definição, um sistema de identificação, classificação e hierarquização de objetos num dado sistema. Que sentido terá, para o homem comum do povo (inc. II do art. 2º do Decreto 10.278/2020), indicar “palavras-chaves” num documento eletrônico sem que possa manejar os conceitos de classificação e hierarquização de informação que é seu  pressuposto? Para a existência de palavras-chaves num dado sistema é necessária a criação de um vocabulário-padrão controlado cujos termos tenham sido pré-definidos e o sentido atribuído segundo critérios anteriormente estabelecidos. O objetivo evidente é assegurar a consistência no tratamento de dados, sua identificação, localização e acesso[3].

No âmbito dos estudos acerca da ontologia registral, empreendidos no bojo do NEAR- Núcleo de Estudos Avançados do Registro de Imóveis, chegou-se à conclusão de que seria necessária uma modelagem de um vocabulário técnico pré-definido e estruturado que serviria de base para a classificação dos atos registrais e permitir, assim, a sua recuperação e relacionamento com outros objetos digitais, sejam eles da própria serventia ou em coordenação com as demais com base em padrões de interoperabilidade. Sustentávamos que os metadados deveriam ser verificados pelo próprio sistema de recepção do título – sem prejuízo daqueles que o próprio autor pudesse indicar livremente (folksonomy)[4]. O e-Protocolo do título deveria submetê-lo previamente a um escrutínio taxonômico digital para verificar a ocorrência dos elementos requeridos não só pelo Decreto 10.278/2020, mas pelo próprio SREI em sua especificação.

Sempre entendemos que a geração do PDF poderia ser feita no ato de acesso ao e-Protocolo. O interessado poderia servir-se de uma ferramenta que o ONR – Operador Nacional do SREI pudesse oferecer. Uma vez gerado o PDF/A, com os metadados subministrados pelo interessado e pelo próprio sistema, ato contínuo o apresentante poderia assinar digitalmente o título.

Uma pequena nótula calha aqui. Assunto não é o mesmo que título do documento (Anexo II). Embora possam coincidir, o decreto distingue as hipóteses. Em sentido ordinário, título de um documento é elemento normalmente associado ao nome do arquivo.

[4] – Representação do conteúdo do documento.

O “conteúdo” do documento, aqui requerido, será do representante digital ou do original digitalizado? Num documento nato-digital esta pergunta não envolve maiores problemas e questionamentos. Todavia, nos documentos digitalizados temos uma coisa que representa outra – e ambas, embora inter-relacionadas, guardam elementos de identidade entre si. O fato é que embora sejam coisas singulares, o “conteúdo” será o fato representado por ambas as coisas.

Dossiês digitais

Além disso, os títulos que ingressam ordinariamente nos Registros Públicos Imobiliários compõem um acervo documental que temos chamado de dossiê digital – conjunto de documentos que integram o título formal – requerimento, certidões, alvarás, habite-se etc. Esses documentos ordenados e inter-relacionados devem ter o mesmo destino do título no arquivamento posterior no repositório eletrônico.

[5] – Preenchimento livre ou vocabulário controlado (tesauro).

Já aludimos ao preenchimento livre (folksonomy) o que se dá quando as palavras-chave são providas diretamente pelo autor da digitalização (assunto).

Partindo-se do pressuposto de que o acesso ou originação do título digital devam ser administrados pelo ONR, é imperioso a adoção de um vocabulário controlado para a indexação do título ab initio.

Deixemos bem claro o seguinte: não é possível falar-se em metadados sem a criação prévia de um vocabulário controlado. Tudo isso foi visto pela POC (prova de conceito do SREI) realizada pelo NEAR-lab com o estabelecimento de um conjunto de palavras-chaves e referências controladas a fim de expandir e enriquecer, com base de coleções taxonômicas de uso comum, a ontologia “fraca” do sistema registral brasileiro.

Nos trabalhos empreendidos no NEAR-lab, buscou-se a criação de um conceito de ontologia registral pela estereotipagem dos formatos de documentos natodigitais de conteúdo estruturado a partir dos parâmetros da web semântica, com vistas, sempre, à interoperabilidade de dados registrais. A experiência da POC é reveladora do potencial que a estruturação da linguagem pode oferecer[5].

Tesauro é sinônimo de vocabulário controlado, concebido para identificar e indexar documentos de uma atividade específica. Segundo o CONARQ “é uma lista controlada de termos ligados por meio de relações semânticas, hierárquicas, associativas ou de equivalência que cobre uma área específica do conhecimento. Em um tesauro, o significado do termo e as relações hierárquicas com outros termos são explicitados[6].

Em conclusão, não é possível administrar e gerenciar documentos (digitais ou tradicionais) em meios arquivísticos (eletrônicos ou não) sem uma infraestrutura de hierarquização e atribuição de valores a cada elemento que integra o sistema.

Barão de Münchhausen e o Registro de Imóveis eletrônico

Temos visto uma verdadeira mixórdia na recepção de documentos digitalizados nas serventias registrais. Não há padrão, nem uniformidade, muito menos critérios técnica e cientificamente estabelecidos. É possível que tenhamos que refazer todo o trabalho empreendido até aqui por falta de especificação, documentação e padrões. Estima-se que o órgão gestor do ONR, A Corregedoria-Nacional do CNJ, possa, juntamente com o Operador Nacional, dar uma certa ordem na babel eletrônica que se instaurou em nosso meio. Navegamos sem rumo no mar da inovação tecnológica que a sociedade contemporânea experimenta.

Confabulando sobre o tema com o grande advogado paulistano, Dr. Ermitânio Prado, o velho lembrou-se de um personagem que, segundo diz, lembra muito bem as iniciativas voluntariosas implementadas até aqui:

“Escriba, o que é esse registro eletrônico? Será esta gralha ornada com as penas do pavão? Quem pariu este Monstro de Horácio? Não se iluda, querido amigo, não se distraia! O sistema registral se dissolve e degenera numa mixórdia tecnológica, sem ordem, nem sistema, sem planejamento, nem objetivos. É cria de uma águia cega e adejante que se encrespa com os rebentos da ninhada alheia”. E sentencia: “Criam ex nihilo um simulacro de simulacros…”.

E rindo com aquele seu risinho miúdo conclui: “Servus Carthaphilus! a empresa lembra-me o Barão de Münchhausen. Afundando no pântano, o velho não hesita: crava as esporas no cavalo e, puxando-se pelos próprios cabelos, põem-se a salvo – a si e a seu cavalo”. E ri até se fartar.

Não rio, não desdenho e nem faço coro ao velho Leão do Jocquey. Coloco todas as minhas esperanças no bom senso daqueles que hoje estão à frente do ONR e que se encarregarão de colocar as coisas no seu bom rumo.

Volto em breve aos demais tópicos do Anexo II do Decreto 10.278/2020, certo de que ainda vão render muita discussão.

NOTAS


[1] Do grego tax (arranjo) e nomia (método). A expressão é corrente na área de biologia, mas pode ser entendida como a metodologia utilizada para elaborar a classificação hierárquica de elementos num dado sistema de informação.

[2] SOUZA, Renato Tarciso Barbosa de; ARAÚJO JÚNIOR, Rogério Henrique de. A indexação e criação de taxonomias para documentos de arquivo: proposta para a expansão do acesso e integração das fontes de informação. Brazilian Journal of Information Science: Research Trends. 11:4 (2017) p. 53. Acesso: https://dialnet.unirioja.es/servlet/articulo?codigo=6234790.

[3] CAMPOS. Maria Luiza de Almeida. GOMES. Hagar Espanha Gomes. Taxonomia e classificação: a categorização como princípio. Trabalho apresentado no transcurso do VIII ENANCIB – Encontro Nacional de Pesquisa em Ciência da Informação – 28 a 31 de outubro de 2007, Salvador. Acesso: http://www.enancib.ppgci.ufba.br/artigos/GT2–101.pdf

[4] Não deixa de ser interessantíssima a ideia de folksonomies: “[F]olksonomy is a classification system in which end users apply public tags to online items, typically to make those items easier for themselves or others to find later. Over time, this can give rise to a classification system based on those tags and how often they are applied or searched for, in contrast to a taxonomic classification designed by the owners of the content and specified when it is published.[…]. This practice is also known as collaborative tagging, [cit.] social classification, social indexing, and social tagging. Folksonomy was originally “the result of personal free tagging of information […] for one’s own retrieval”,[…] but online sharing and interaction expanded it into collaborative forms. Social tagging is the application of tags in an open online environment where the tags of other users are available to others”. Acesso: https://en.wikipedia.org/wiki/Folksonomy.

[5] Para conhecer os avanços conseguidos pelo NEAR-lab, acesse: CAPÍTULO VII – Ontologia Registral em https://near-lab.com/2020/02/14/poc-srei/

[6] V. e-ARQ Brasil – modelo de requisitos para sistemas informatizados de gestão arquivística de documentos. Resolução 32, de 17/5/2010. Dispõe sobre a inserção dos Metadados na Parte II do Modelo de Requisitos para Sistemas Informatizados de Gestão Arquivística de Documentos – e-ARQ Brasil. Acesso: http://conarq.gov.br/images/publicacoes_textos/earqbrasil_model_requisitos_2009.pdf

Deixe uma resposta