読者です 読者をやめる 読者になる 読者になる


英語のニュースでお勉強。 知らない単語や表現を、こっそり調べてエラそうに説明してみるブログです。 元の記事から数日遅れることもありますので、ニュースとしては役に立たないこともある。IT系・技術系が主たる対象であります。


Why machine vision is the next frontier for AI



売り上げランキング: 362,583

The buzz around artificial intelligence, or AI, has been growing strong over the past year. We’ve never been closer to unlocking the benefits of this technology. 2016 will see new kinds of AI-powered devices as we make progress on one of the most difficult challenges in AI: getting our devices to understand what they are seeing.

人工知能周辺が騒がしい。そう、AI は、この1年で強力に成長してきた。我々は、この技術の恩恵を解き放つことに、これほどまで近づいたことはありませんでした。2016年には、AIでの最も難しい挑戦のひとつを私たちが前進させることで、新たな種類のAIを装備した機器が登場することになるでしょう。それは我々の機器に、それら自身が見ているものを理解させるということです。

  • frontier - フロンティア。開拓地と未開拓地の境界。表題ではフロンティアと書きましたが、最前線と言い換えてもよさそうですね。

Why would a machine need to see? Vision is a primary sense and one of the main mediums in which we live our lives. In order for machines to be able to relate to humans and provide the support we need, it is imperative they can observe and behave in the visual realm. This can be in the form of a small camera that helps a blind person “see” and contextualize the world around them or a home surveillance system that can correctly identify the difference between a stray cat, moving tree branches outside, and a burglar.

なぜ、機械が見る必要があるのか。視覚は主要な感覚であり、私たちの生活において主要なもののひとつです。 機械が人に関与し、我々が必要とする支援を提供できるためには、その視覚領域のなかで観察し、行動することが不可欠なのです。 これは、盲目の人の周囲の世界を「見て」説明をつける支援を行う小さなカメラを可能にします。 あるいは、自宅の木の間を動くものが、野良猫なのか強盗なのかという違いを正確に識別する監視システムです。

  • imperative - 命令、早急、不可欠
  • the visual realm - 視覚領域

As devices play a progressively integral part in our daily lives, we have seen an increasing number of applications fail without adequate visual capabilities, including a myriad of midair drone collisions and robot vacuums that “eat” things they shouldn’t.

機器は次第に、我々の日々の生活に不可欠になっていることから、私たちは、十分な視覚能力なしに失敗するアプリケーションの増加を見てきました。 空中での無数のドローンの衝突や、ロボットが、食べてはいけないものを吸い込んでしまうようなことですね。

  • adequate - 十分な
  • myriad - 無数の
  • midair - 空中の

Machine vision, a rapidly growing branch of AI that aims to give machines sight comparable to our own, has made massive strides over the past few years thanks to researchers applying specialized neural networks to help machines identify and understand images from the real world. From that starting point in 2012, computers are now capable of doing everything from identifying cats on the Internet to recognizing specific faces in a sea of photos, but there is still a ways to go. Today, we’re seeing machine vision leave the data center and be applied to everything from autonomous drones to sorting our food.

マシンビジョンは、機械に私たちの持つものに匹敵する視界を与えることを目的としたAIの枝。機械が現実世界の画像を認識し、理解できるよう、特化したニューラルネットワークを適用している研究者達のおかげで、マシンビジョンは急速に成長しています。2012年のそのスタートポイントから、コンピュータには、現在、インターネット上でネコを識別することから、写真の山から特定の顔を識別することまで、全てを行う能力があります。 しかし、まだ、するべきことはあります。今日、我々はマシンビジョンを見ています。データセンターに残して、自律したドローンから、私たちの食物の分類まで、すべてのモノへ適用しています。

A common analogy to understanding machine vision versus our own can be found when comparing the flight of birds to that of airplanes. Both will ultimately rely on fundamental physics (e.g. Bernoulli’s Principle) to help lift them into the air, but that doesn’t mean a plane will flap its wings to fly. Just because people and machines may see the same things and the way those images are interpreted may even have some commonalties, the final results can still be vastly different.

マシンビジョンと我々のモノを対比して理解するための一般的な推測は、鳥と航空機の飛び方を比較するときと同様だと気づけます。 両方とも、空中で自身を浮かび上がらせるためには、最終的には物理学(たとえばベルヌーイの法則)に依存しているでしょう。しかし、航空機が、その翼を羽ばたかせていているわけではありません。 だからといって、人と機械は同じことを見るかもしれず、それらの画像の説明は、いくつかの共通点を持っているかもしれないが、最終的な結果はやはり非常に違っている可能性がある。

  • vastly - 非常に

While basic image classification has become far easier, when it comes to extracting meaning or information from abstract scenes, machines face a whole new set of problems. Optical illusions are a great example of how far machine vision still has to go.

基本的な画像分類は、はるかに簡単になってきたので、抽象的なシーンから、意味や情報を抽出できるようになったとき、機械は新しい問題のセット全体に直面します。 光学的なイリュージョンは、マシンビジョンが未だどこまで行くべきかを示す、素晴らしい例です。

Everyone is probably familiar with the classic illusion of two silhouettes facing one another. When a person looks at this image, they aren’t limited to just seeing abstract shapes. Their brain inserts further context, allowing them to identify multiple parts of the image, seeing two faces or a vase, all from the same image.

おそらく誰もが、2つのシルエットが他の一つに面している伝統的なイリュージョンを知っているでしょう。 人がこの画像を見たとき、彼らは抽象的な図形に限らない。 彼らの脳はちょっとした文脈を挿入し、彼らが画像の複数の部分を識別することを可能にし、二つの顔か、花瓶を、同じ画像から見るのです。

  • vase - 花瓶

When we run this same image through a classifier (you can find several free ones on the Internet), we quickly realize how hard this is for a machine to understand. A basic classifier doesn’t see two faces or a vase, instead, it sees things like a hatchet, hook, bulletproof vest, and even an acoustic guitar. While the system is admittedly uncertain any of those things are actually in the image, it shows just how challenging this can become.

私たちが、この同じ画像を(インターネットで複数見つけられる)分類機を通した時、私たちは、これが、機械にとって理解するということが、如何に難しいことかと、すぐに気が付きます。 基本的な分類機は、2つの顔や花瓶を見ないかわりに、斧、フック、防弾チョッキ、また、アコースティックギターなどを見つけます。 画像の中に、これらのどれもが確かであるとする、このシステムは確かに不確実ですから、これが如何に挑戦的な課題になっているということを示しています。

This problem becomes even more difficult if we look at something more complicated, like a painting from Beverly Doolittle. While everyone who sees this image may not be able to spot every face on the canvas, they will almost instantly see there is more to the picture than meets the eye.

我々が、ベヴァリー・ドゥーリトルの絵のような、さらに複雑な何かを見るのなら、この問題は、さらに難しくなります。 このイメージを見る誰もが、キャンバスにそれぞれの顔を指し示すことができないかもしれないので、彼らはだいたい、その画像に目に映るものよりも多くのものを、瞬時に見ます。

  • complicated - 複雑な

Running this image through the same classifier, our results run the gamut from something like a valley or a stone wall to the completely off-base Grifola Frondosa (a type of mushroom) or an African chameleon. While the classifier can understand the general sense of the image, it fails to see the hidden faces within the picture.

この画像を、同じ分類機を通すと、我々の結果は、谷や石の壁のような何かから、完全にオフベースなグリフォラフロンドーサ(キノコの一種=舞茸)や、アフリカのカメレオンのようなものの色域を出してきます。 この分類機は、一般的な画像の意味を理解できるのですが、画像の中に隠れた顔を見るのは失敗します。

  • gamut - 色域
  • Grifola Frondosa - 舞茸

To understand why this is such a challenge, you need to consider why vision is so complex. Just like these images, the world is a messy place. Navigating the world isn’t as simple as building an algorithm to parse through data, it requires experience and understanding of real situations that allow us to act accordingly.

これが、それほどの挑戦的課題である理由を理解するには、視覚がとても複雑である理由を考慮する必要があります。 これらの画像のように、この世界は、乱雑な場所です。世界を案内するのは、データを解釈するアルゴリズムを構築するほど単純なことではありません。実際の状況に応じた経験と理解が必要とされるのです。

  • messy - 乱雑な
  • accordingly - 応じた

Robots and drones face a myriad of these obstacles that may be out of the norm, and figuring out how to overcome these challenges is a priority for those looking to capitalize on the AI revolution.


With the continued adoption of technologies like neural networks and specialized machine vision hardware, we are rapidly closing the gap between human and machine vision. One day soon, we may even start to see robots with visual capabilities going above and beyond our own, enabling them to carry out numerous complex tasks and operate completely autonomously within our society.

ニューラルネットワークや、特定のマシンビジョンのハードウェアなどのような、テクノロジーの継続的採用によって、私たちは急速に、人とマシンビジョンのギャップを埋めています。 いつか、すぐに、我々は、視覚能力が上がり、私たちを超えたロボットを見始めるのではないだろうか。 それは、我々の社会の中で、彼らに数多くの複雑な仕事を担わせることを可能にし、完全な自律した操作ができるようになるのだ。

Remi El-Ouazzane is CEO of Movidius, a startup combining algorithms with custom hardware to provide visual intelligence to connected devices.

Remi El-Ouazzane は、接続された機器に視覚知能を提供するため、アルゴリズムをカスタムハードウェアに結び付けているスタートアップ Movidius のCEOです。