Tipos de Tarefas
Uma visão geral das diversas categorias de tarefas que projetamos
para aprimorar as capacidades de IA de fronteira.
Tarefas Focadas em Raciocínio
Conjuntos de problemas rigorosos elaborados para construir capacidades lógicas fundamentais e avançadas.
Matemática
Fundamental
Problemas de matemática de nível de ensino médio e AIME, projetados para incutir raciocínio matemático básico e lógica estrutural em modelos de IA.
Problemas Complexos
estilo HLE
Conjuntos de problemas originais que abrangem dificuldades de graduação a PhD e nível IMO, construídos especificamente para aprimorar o raciocínio em várias etapas e a resolução de problemas complexos para guiar os modelos de IA de fronteira em direção ao benchmark Humanity’s Last Exam.
Tarefas Focadas em Educação
Cenários que simulam interações acadêmicas do mundo real e ambientes de aprendizagem estruturados.
Simulação de
Prompt de Aluno
Consultas realistas de alunos (13-24 anos) visando assistência com dever de casa, explicação de tópicos complexos, interpretação de artigos acadêmicos e pesquisa aberta.
Ambientes
“Agentics”
“Mundos” complexos povoados com centenas de artefatos distintos, treinando modelos para atuar como educadores autônomos e assistentes de ensino.
Dados Generalistas
Prompts de domínio amplo projetados para testar a utilidade diária, segurança e conformidade comportamental.
“Red Teaming”
Adversarial
Prompts “ardilosos” especializados utilizando encenação, metáforas e formatação complexa para testar a adesão a regras e prevenir a geração de conteúdo sensível.
Tarefas da
Vida Estudantil
Consultas diárias de alunos focadas em conhecimento geral, planejamento de produtividade, agendamento de estudos e geração de material de revisão.
Detalhes das Tarefas
Os componentes estruturais que compõem
nossos conjuntos de dados de treinamento de alta qualidade.
Prompt Artifacts
The varied input components and structural configurations that make up the initial query.
Modalidades
Mistas
Interações de turno único e múltiplo que abrangem desde entradas somente de texto até mídias mistas complexas, incluindo diagramas geométricos, gráficos e análise de arquivos técnicos.
Prompts
de Sistema
Instruções de sistema direcionadas – frequentemente situando o modelo como um matemático especialista, seguido pelo prompt projetado pelo escritor.
Prompts
de Sistema
Prompts intencionalmente sobrepostos com ambiguidade, contradições, mudanças repentinas de tópico ou contexto incompleto para testar modelos em condições autênticas e não idealizadas.
Tarefas
Aspiracionais
Solicitações que exigem ações além das capacidades atuais do modelo, como a execução de edições de arquivos locais ou o envio de e-mails ao vivo.
Análise da Cadeia de Pensamento (CoT)
Desdobramentos detalhados do raciocínio do modelo para identificar pontos fracos e guiar o aprendizado por reforço.
Justificativa de
Falha do Modelo
Expert analysis of model responses to isolate specific logic breakdowns, paired with clear, actionable feedback on errors and areas of improvement.
Justificativa de
Falha do Modelo
Systematic categorization of CoT flaws into Hard failures (hallucinations, factual mistakes, logical flaws) and Soft failures (compliance, clarity, formatting, tone).
RLHF
Preference Rating
Avaliações comparativas classificando as respostas do modelo (1-5), apoiadas por análise dimensional detalhando exatamente por que uma resposta supera a outra.
Artefatos de Resposta
Respostas esperadas de alta fidelidade, dicas e guias de raciocínio passo a passo.
Golden
Responses
Soluções formais e autoritárias para tarefas baseadas em texto ou descrições abrangentes do estado ideal para saídas multimodais.
Caminhos de
Raciocínio Intuitivos
“Golden Responses” estruturadas ao longo de caminhos cognitivos naturais para otimizar a compreensão subjacente do modelo de problemas complexos.
Dicas
Progressivas
Pistas variáveis, calibradas por dificuldade, que destacam etapas críticas e guiam suavemente o modelo em direção à solução correta sem revelá-la completamente.
Rubricas JSON Estruturadas
Custom grading criteria used to evaluate the accuracy and quality of the model’s responses.
Cobertura e Verificabilidade
Critérios projetados para verificação de auto-graders, estruturados como rubricas unidimensionais para problemas de resposta única ou rubricas multidimensionais para acomodar múltiplos caminhos de solução válidos.
Dimensões da Rubrica
Critérios atômicos avaliando traços de resposta específicos, apoiados por metadados exatos: Descrição, Justificativa, Propósito, Orientação de Avaliação, Dependência de Critério, Fonte e Peso.
Categorização de Critérios
Tags específicas (por exemplo, Raciocínio Quantitativo, Estilo, Segurança, Conformidade, Extração) atribuindo um alvo de avaliação exato a cada critério de rubrica atômico.
Classificação Humana
Respostas de amostra avaliadas por especialistas com justificativas detalhadas, estabelecendo uma linha de base comportamental para futuros auto-graders.
Garantia de Qualidade
Pipelines de verificação rigorosos garantindo que cada conjunto de dados
atenda aos mais altos padrões de correção e utilidade.
Processo de Revisão
Avaliação especializada em várias etapas para validar o alinhamento da tarefa, precisão e dificuldade.
Visão Geral do Fluxo
de Trabalho
Avaliadores treinados aprovam, descartam ou retornam tarefas para edição, garantindo estrita adesão às diretrizes e ao escopo específicos do projeto.
Mecânica do
“Blind-Solve”
Avaliadores tentam resolver problemas sem acesso prévio a soluções ou rubricas, garantindo uma avaliação imparcial da resposta, dificuldade, qualidade do conjunto de dados e caminhos de solução alternativos.
Verificações Automatizadas de Pipeline
Verificações automatizadas integradas à interface que verificam a precisão estrutural de Prompts, análise de CoT, Golden Responses e Rubricas, otimizando o tempo de nossos especialistas e minimizando erros.
Processor de Super Revisão e Controle de Qualidade
Nossos especialistas mais confiáveis formam a autoridade final antes da entrega ao cliente. Eles conduzem verificações rigorosas de originalidade e controle de qualidade, garantindo que todo o nosso pool de talentos permaneça perfeitamente calibrado.
Somente as tarefas que passam por esta revisão rigorosa entram no conjunto de dados final.