Microsoft Research는 "스마트" 캡션을 자동으로 생성할 수 있는 시스템을 만듭니다.

차례:

무엇으로 구성되어 있나요

확실히 혼란스럽거나 부정확하거나 참조하는 이미지에 대해 거의 설명하지 않는 캡션을 접하셨을 것입니다. 자신의 기사를 게시하는 데 전념하는 경우 이 섹션을 작성하는 것이 가장 tedious 일 수도 있습니다. 음, Redmond의 사람들은 일을 더 쉽게 만드는 것을 목표로 하는 도구를 만들었습니다.

인간 언어의 내러티브 특성을 모방할 수 있는 "캡션 생성 시스템", 즉 스크린샷을 마치 우리 중 한 사람에 대한 것처럼 기술할 수 있는 기술이라고 Microsoft Research에서 발표한 작업, 해당 컨텍스트와 함께.Facebook, Microsoft 및 Google과 같은 회사가 한동안 작업해 왔지만 이번에는 예상을 뛰어넘는 것입니다.

무엇으로 구성되어 있나요

그는 즐거운 시간을 보냈습니다

이러한 방식으로 system은 여러 이미지에서 완전한 이야기를 전달하고 설명하고 마치 마치 그것은 책이었다. 전문가에 따르면 이 유틸리티는 특정 응용 프로그램, 음성 인식 응용 프로그램, 다른 영역에서 설명을 자동으로 생성하는 등의 기능을 제공하는 기능이 될 수 있습니다.

그리고 사실 tool은 "보는 것"을 간단히 말하는 것에 국한되지 않고 더 넓은 의미를 제공합니다. 이 작품의 저자 중 한 명인 프랭크 페라로(Frank Ferraro)는 이미지에 반영된 상황의 맥락을 통해 "내러티브 맥락과 독특한 내레이션 스타일"을 달성했다고 설명했습니다.상황에 처하기 위해 그는 우리에게 명확한 example

그의 어머니는 그를 자랑스러워했습니다.

따라서 우리는 제안 다음과 같은 경우를 제안합니다. 선술집. 첫 번째 이미지 중 일부는 사람들이 맥주를 주문하고 마시는 모습을 보여주고, 마지막 이미지는 누군가가 소파에서 자고 있는 모습을 보여줍니다.”라고 그는 말합니다.

기존 시스템은 "단순히 사람이 소파에 누워 있는 것과 같은 것을 가리킬 수 있는 반면, 우리 시스템은 술을 몇 잔 마신 후 술에 취했기 때문에 아마도 그런 상황에 처했을 것"을 포함할 수 있습니다. understanding을 제공하는 추가 기능과 이 기사에 포함된 이미지 및 사진 캡션을 통해 반영되는 특정 감정적 충전.

통해 | MIT 기술 검토

In Xataka Windows | Microsoft는 개의 품종을 결정하는 앱을 출시합니다.

차례:

무엇으로 구성되어 있나요

편집자의 선택