IT뉴스모아news terminal

article detail

검증 모델 부족해 확산 제약…정부, AI 에이전트·MCP 안전망 만든다

지디넷코리아AI에이전트MCP검증체계벤치마크성능평가신뢰성안전성정부지원

2026. 5. 11. 오후 4:03

검증 모델 부족해 확산 제약…정부, AI 에이전트·MCP 안전망 만든다

AI 요약

과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 인공지능 에이전트 성능 평가·벤치마크와 모델 컨텍스트 프로토콜(MCP) 안전·신뢰 검증 체계를 올해 안에 구축하기로 하고 정부출연금 18억원을 투입해 협약 체결일부터 오는 12월 31일까지 진행하는 사업 공모를 사전 공개했습니다. 사업은 AI 에이전트 성능 평가 프레임워크(과업 성공률·도구 호출 정확도·실행 효율성 등), 다단계 추론 시나리오와 5000건 이상 검증 데이터셋을 포함한 벤치마크 도구(규칙 기반 자동 채점 및 실행 경로 기반 논리적 타당성 평가 등), 표준 적합성·상호운용성·안정성·보안성 등을 검증하는 MCP 검증 프레임워크 등 세 축으로 구성됩니다. 선정 수행기관은 개발 결과물을 최소 5년간 유지·운영해야 하며 과기정통부와 NIA는 오는 27일 오후 2시 서울 중구 NIA 서울사무소에서 사업설명회를 열 예정이고 사전공개 단계여서 세부 내용은 본 공고 시 변경될 수 있습니다.

KT, 다국어 벤치마크 ‘XL-SafetyBench’ 공개⋯ “안전성·문화적 민감성 검증”

브릿지경제

2026. 6. 4. 오전 10:02

KT, 다국어 벤치마크 ‘XL-SafetyBench’ 공개⋯ “안전성·문화적 민감성 검증”

LLM벤치마크다국어안전성문화민감성AI윤리평가데이터신뢰성

복잡한 과학 연구에선 과학자 못따라잡는 AI

2026. 4. 14. 오후 3:04

복잡한 과학 연구에선 과학자 못따라잡는 AI

AI에이전트과학연구성능평가자연과학벤치마크AI활용연구품질

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

news.dlwlrmaon.com

2026. 6. 3. 오후 6:03

KT, 다국어 벤치마크 'XL-SafetyBench' 공개? "안전성·문화적 민감성 검증" — IT뉴스모아

LLM벤치마크안전성다국어문화민감성오픈소스평가도구언어모델

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성평가AI안전언어모델

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성프롬프트평가AI안전

‘토큰 불안증’, AI 시대의 통제 비용

2026. 6. 5. 오전 12:04

‘토큰 불안증’, AI 시대의 통제 비용

AI에이전트토큰통제비용언어모델자동화기술부채신뢰성검증

[박철완의 마켓 나우] ‘토큰 불안증’, AI 시대의 통제 비용

2026. 6. 5. 오전 12:05

[박철완의 마켓 나우] ‘토큰 불안증’, AI 시대의 통제 비용

AI에이전트토큰통제비용기술부채의미밀도자동화유지보수신뢰성

[AI 브리프] NC AI, 한화오션 상선·특수선에 ‘자율 용접 로봇 AI 두뇌’ 공급

아이티데일리

2026. 6. 4. 오후 4:42

[AI 브리프] NC AI, 한화오션 상선·특수선에 ‘자율 용접 로봇 AI 두뇌’ 공급

자율용접로봇AI비전인식협동로봇LLMAI에이전트산업특화벤치마크

AI 모델, 리스크 대응력은 ‘클로드’·문화적 이해는 ‘제미나이’ 뛰어나

2026. 6. 4. 오후 3:15

AI 모델, 리스크 대응력은 ‘클로드’·문화적 이해는 ‘제미나이’ 뛰어나

AI모델벤치마크리스크평가문화민감성안전성탈옥방어현지화언어학습

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

2026. 6. 4. 오전 10:11

KT, 다국어 LLM 안전성 벤치마크 공개…에임인텔리전스·MS와 협력

LLM안전성벤치마크다국어문화민감성평가언어모델AI안전

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:49

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표오픈소스AI안전

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

2026. 6. 4. 오후 12:47

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

LLM안전성벤치마크다국어문화민감성평가지표언어모델AI윤리