Dataset sintético de notas clínicas de admissão hospitalar

O SyntheNote é um dataset sintético composto por 455 notas clínicas fictícias de admissão em internamento hospitalar, criado para fins educativos, científicos e experimentais na área da saúde digital, informática em saúde e inteligência artificial aplicada ao texto clínico.

Este recurso pretende simular, de forma controlada, um cenário próximo da prática clínica hospitalar, permitindo testar métodos de processamento de linguagem natural, modelos de linguagem, ferramentas de extração de informação clínica e outras abordagens de inteligência artificial em saúde.

Todas as notas clínicas incluídas no SyntheNote são fictícias. Não correspondem a doentes reais, episódios clínicos reais ou registos hospitalares reais.

Conteúdo do dataset

As notas clínicas foram concebidas para abranger uma ampla gama de especialidades médicas, refletindo diferentes contextos clínicos, diagnósticos, antecedentes, medicação habitual, alergias medicamentosas e planos de abordagem hospitalar.

As especialidades incluídas são:

  • Cardiologia;
  • Gastroenterologia;
  • Medicina Interna;
  • Neurologia;
  • Nefrologia;
  • Oncologia;
  • Pneumologia;
  • Doenças Infecciosas.

Em cada iteração, o modelo foi instruído aleatoriamente para definir a presença ou ausência de alergia medicamentosa. Esta característica permite utilizar o dataset em experiências relacionadas com identificação automática de alergias, extração de informação clínica e análise de segurança medicamentosa.

Metodologia de criação

A criação do SyntheNote seguiu uma metodologia progressiva.

Numa primeira fase, foram desenvolvidos 5 templates clínicos distintos, que serviram como base estrutural para a geração das notas. Estes templates resultaram de registos fictícios criados por 5 médicos voluntários, procurando garantir relevância clínica e proximidade com práticas reais de documentação médica.

Posteriormente, foram desenvolvidas 15 variações a partir desses templates. Estas variações foram revistas e validadas pelos mesmos médicos, com o objetivo de aumentar a diversidade, a plausibilidade clínica e a consistência do conjunto de dados.

A geração das notas clínicas finais foi realizada com recurso ao modelo de linguagem Llama 3.3, instruído para produzir notas de admissão fictícias com base nos templates definidos, adaptando o conteúdo à especialidade médica e à presença ou ausência de alergia medicamentosa.

O processo foi executado de forma iterativa, repetindo a geração para diferentes especialidades e templates, até se obter um conjunto final de 455 notas clínicas sintéticas.

Estrutura das notas

As notas foram geradas em texto plano, usando terminologia e expressões do português europeu, de acordo com o estilo habitualmente utilizado em registos clínicos em Portugal. A estrutura das notas inclui elementos como:

  • Identificação fictícia do doente;
  • Motivo de admissão;
  • História da doença atual;
  • Antecedentes clínicos;
  • Medicação habitual;
  • Alergias medicamentosas;
  • Exame objetivo;
  • Hipóteses diagnósticas;
  • Plano de abordagem inicial.

Download de ficheiro

Descarregar:

Possíveis utilizações

O SyntheNote pode ser utilizado em contextos de ensino, investigação e desenvolvimento experimental, nomeadamente para:

  • Testar modelos de linguagem aplicados a texto clínico;
  • Desenvolver tarefas de extração de informação clínica;
  • Identificar automaticamente alergias medicamentosas;
  • Classificar notas por especialidade médica;
  • Avaliar sistemas de sumarização clínica;
  • Criar exercícios de processamento de linguagem natural em saúde;
  • Explorar métodos de anonimização, estruturação e normalização de texto clínico;
  • Comparar abordagens de inteligência artificial generativa em saúde;
  • Avaliar riscos, limitações e oportunidades dos modelos de linguagem em contexto clínico.

Nota ética e de segurança

O SyntheNote é composto exclusivamente por dados fictícios. Não contém informação relativa a pessoas reais nem deve ser interpretado como um conjunto de registos clínicos reais.

Apesar disso, o dataset deve ser utilizado de forma responsável. Os resultados obtidos a partir destes dados não devem ser considerados evidência clínica, nem utilizados para validação de sistemas destinados a apoio direto à decisão clínica sem estudos adicionais, validação independente e enquadramento ético e metodológico adequado.

Este recurso destina-se sobretudo a simulação, ensino, prototipagem e investigação exploratória.

Limitações

Por se tratar de um dataset sintético, o SyntheNote pode não refletir integralmente a complexidade, variabilidade, ambiguidade, incompletude e imperfeições dos registos clínicos reais.

Embora as notas tenham sido geradas com base em templates clínicos revistos por médicos, podem existir inconsistências, simplificações, padrões artificiais ou formulações que não correspondam exatamente à prática clínica real.

A utilização deste dataset deve, por isso, ser acompanhada de uma análise crítica, especialmente quando usado para avaliar o desempenho de sistemas de inteligência artificial.

Equipa

O projeto SyntheNote foi desenvolvido por uma equipa com experiência nas áreas da medicina, informática em saúde, ciência de dados e inteligência artificial aplicada ao texto clínico.

Equipa do projeto:

Pessoa de contacto

Para questões relacionadas com o projeto SyntheNote, potenciais colaborações, esclarecimentos metodológicos ou propostas de utilização, poderá contactar: Francisco Bischoff

Em alternativa, poderá contactar a e-MAIS através do email: geral@e-mais.pt

Como referenciar este dataset

Caso utilize este dataset em publicações científicas, relatórios, apresentações, trabalhos académicos ou outros materiais, agradecemos que cite a e-MAIS como fonte.

Referência sugerida — APA:

e-MAIS – Associação de Sistemas de Informação em Saúde. (2026). SyntheNote: Dataset sintético de notas clínicas de admissão hospitalar [Dataset]. e-MAIS. URL da página do dataset

Citação no texto:

(e-MAIS – Associação de Sistemas de Informação em Saúde, 2026)

Sempre que possível, indique também a data de consulta ou a versão utilizada, uma vez que este dataset poderá ser atualizado ao longo do tempo.

baseofporn.com jacklyn lick makes anthony hardwood sweat.
food covered threesome in a kitchen. opoptube.com
Plugin for Social Media by Acurax Wordpress Design Studio