Microsoft Research는 "스마트" 캡션을 자동으로 생성할 수 있는 시스템을 만듭니다.

차례:
확실히 혼란스럽거나 부정확하거나 참조하는 이미지에 대해 거의 설명하지 않는 캡션을 접하셨을 것입니다. 자신의 기사를 게시하는 데 전념하는 경우 이 섹션을 작성하는 것이 가장 tedious 일 수도 있습니다. 음, Redmond의 사람들은 일을 더 쉽게 만드는 것을 목표로 하는 도구를 만들었습니다.
인간 언어의 내러티브 특성을 모방할 수 있는 "캡션 생성 시스템", 즉 스크린샷을 마치 우리 중 한 사람에 대한 것처럼 기술할 수 있는 기술이라고 Microsoft Research에서 발표한 작업, 해당 컨텍스트와 함께.Facebook, Microsoft 및 Google과 같은 회사가 한동안 작업해 왔지만 이번에는 예상을 뛰어넘는 것입니다.
무엇으로 구성되어 있나요
이러한 방식으로 system은 여러 이미지에서 완전한 이야기를 전달하고 설명하고 마치 마치 그것은 책이었다. 전문가에 따르면 이 유틸리티는 특정 응용 프로그램, 음성 인식 응용 프로그램, 다른 영역에서 설명을 자동으로 생성하는 등의 기능을 제공하는 기능이 될 수 있습니다.
그리고 사실 tool은 "보는 것"을 간단히 말하는 것에 국한되지 않고 더 넓은 의미를 제공합니다. 이 작품의 저자 중 한 명인 프랭크 페라로(Frank Ferraro)는 이미지에 반영된 상황의 맥락을 통해 "내러티브 맥락과 독특한 내레이션 스타일"을 달성했다고 설명했습니다.상황에 처하기 위해 그는 우리에게 명확한 example
따라서 우리는 제안 다음과 같은 경우를 제안합니다. 선술집. 첫 번째 이미지 중 일부는 사람들이 맥주를 주문하고 마시는 모습을 보여주고, 마지막 이미지는 누군가가 소파에서 자고 있는 모습을 보여줍니다.”라고 그는 말합니다.
기존 시스템은 "단순히 사람이 소파에 누워 있는 것과 같은 것을 가리킬 수 있는 반면, 우리 시스템은 술을 몇 잔 마신 후 술에 취했기 때문에 아마도 그런 상황에 처했을 것"을 포함할 수 있습니다. understanding을 제공하는 추가 기능과 이 기사에 포함된 이미지 및 사진 캡션을 통해 반영되는 특정 감정적 충전.
통해 | MIT 기술 검토
In Xataka Windows | Microsoft는 개의 품종을 결정하는 앱을 출시합니다.