Serviços

Visão Geral

Tipos de Tarefas

Uma visão geral das diversas categorias de tarefas que projetamos
para aprimorar as capacidades de IA de fronteira.

Tarefas Focadas em Raciocínio

Conjuntos de problemas rigorosos elaborados para construir capacidades lógicas fundamentais e avançadas.

Matemática
Fundamental

Problemas de matemática de nível de ensino médio e AIME, projetados para incutir raciocínio matemático básico e lógica estrutural em modelos de IA.

Problemas Complexos
estilo HLE

Conjuntos de problemas originais que abrangem dificuldades de graduação a PhD e nível IMO, construídos especificamente para aprimorar o raciocínio em várias etapas e a resolução de problemas complexos para guiar os modelos de IA de fronteira em direção ao benchmark Humanity’s Last Exam.

Tarefas Focadas em Educação

Cenários que simulam interações acadêmicas do mundo real e ambientes de aprendizagem estruturados.

Simulação de
Prompt de Aluno

Consultas realistas de alunos (13-24 anos) visando assistência com dever de casa, explicação de tópicos complexos, interpretação de artigos acadêmicos e pesquisa aberta.

Ambientes
“Agentics”

“Mundos” complexos povoados com centenas de artefatos distintos, treinando modelos para atuar como educadores autônomos e assistentes de ensino.

Dados Generalistas

Prompts de domínio amplo projetados para testar a utilidade diária, segurança e conformidade comportamental.

“Red Teaming”
Adversarial

Prompts “ardilosos” especializados utilizando encenação, metáforas e formatação complexa para testar a adesão a regras e prevenir a geração de conteúdo sensível.

Tarefas da
Vida Estudantil

Consultas diárias de alunos focadas em conhecimento geral, planejamento de produtividade, agendamento de estudos e geração de material de revisão.

Detalhes das Tarefas

Os componentes estruturais que compõem
nossos conjuntos de dados de treinamento de alta qualidade.

Prompt Artifacts

The varied input components and structural configurations that make up the initial query.

Modalidades
Mistas

Interações de turno único e múltiplo que abrangem desde entradas somente de texto até mídias mistas complexas, incluindo diagramas geométricos, gráficos e análise de arquivos técnicos.

Prompts
de Sistema

Instruções de sistema direcionadas – frequentemente situando o modelo como um matemático especialista, seguido pelo prompt projetado pelo escritor.

Prompts
de Sistema

Prompts intencionalmente sobrepostos com ambiguidade, contradições, mudanças repentinas de tópico ou contexto incompleto para testar modelos em condições autênticas e não idealizadas.

Tarefas
Aspiracionais

Solicitações que exigem ações além das capacidades atuais do modelo, como a execução de edições de arquivos locais ou o envio de e-mails ao vivo.

Análise da Cadeia de Pensamento (CoT)

Desdobramentos detalhados do raciocínio do modelo para identificar pontos fracos e guiar o aprendizado por reforço.

Justificativa de
Falha do Modelo

Expert analysis of model responses to isolate specific logic breakdowns, paired with clear, actionable feedback on errors and areas of improvement.

Justificativa de
Falha do Modelo

Systematic categorization of CoT flaws into Hard failures (hallucinations, factual mistakes, logical flaws) and Soft failures (compliance, clarity, formatting, tone).

RLHF
Preference Rating

Avaliações comparativas classificando as respostas do modelo (1-5), apoiadas por análise dimensional detalhando exatamente por que uma resposta supera a outra.

Artefatos de Resposta

Respostas esperadas de alta fidelidade, dicas e guias de raciocínio passo a passo.

Golden
Responses

Soluções formais e autoritárias para tarefas baseadas em texto ou descrições abrangentes do estado ideal para saídas multimodais.

Caminhos de
Raciocínio Intuitivos

“Golden Responses” estruturadas ao longo de caminhos cognitivos naturais para otimizar a compreensão subjacente do modelo de problemas complexos.

Dicas
Progressivas

Pistas variáveis, calibradas por dificuldade, que destacam etapas críticas e guiam suavemente o modelo em direção à solução correta sem revelá-la completamente.

Rubricas JSON Estruturadas

Custom grading criteria used to evaluate the accuracy and quality of the model’s responses.

Cobertura e Verificabilidade

Critérios projetados para verificação de auto-graders, estruturados como rubricas unidimensionais para problemas de resposta única ou rubricas multidimensionais para acomodar múltiplos caminhos de solução válidos.

Dimensões da Rubrica

Critérios atômicos avaliando traços de resposta específicos, apoiados por metadados exatos: Descrição, Justificativa, Propósito, Orientação de Avaliação, Dependência de Critério, Fonte e Peso.

Categorização de Critérios

Tags específicas (por exemplo, Raciocínio Quantitativo, Estilo, Segurança, Conformidade, Extração) atribuindo um alvo de avaliação exato a cada critério de rubrica atômico.

Classificação Humana

Respostas de amostra avaliadas por especialistas com justificativas detalhadas, estabelecendo uma linha de base comportamental para futuros auto-graders.

Garantia de Qualidade

Pipelines de verificação rigorosos garantindo que cada conjunto de dados
atenda aos mais altos padrões de correção e utilidade.

Processo de Revisão

Avaliação especializada em várias etapas para validar o alinhamento da tarefa, precisão e dificuldade.

Visão Geral do Fluxo
de Trabalho

Avaliadores treinados aprovam, descartam ou retornam tarefas para edição, garantindo estrita adesão às diretrizes e ao escopo específicos do projeto.

Mecânica do
“Blind-Solve”

Avaliadores tentam resolver problemas sem acesso prévio a soluções ou rubricas, garantindo uma avaliação imparcial da resposta, dificuldade, qualidade do conjunto de dados e caminhos de solução alternativos.

Verificações Automatizadas de Pipeline

Verificações automatizadas integradas à interface que verificam a precisão estrutural de Prompts, análise de CoT, Golden Responses e Rubricas, otimizando o tempo de nossos especialistas e minimizando erros.

Processor de Super Revisão e Controle de Qualidade

Nossos especialistas mais confiáveis formam a autoridade final antes da entrega ao cliente. Eles conduzem verificações rigorosas de originalidade e controle de qualidade, garantindo que todo o nosso pool de talentos permaneça perfeitamente calibrado.

Somente as tarefas que passam por esta revisão rigorosa entram no conjunto de dados final.

Rolar para cima