英語のニュースでお勉強。 知らない単語や表現を、こっそり調べてエラそうに説明してみるブログです。 元の記事から数日遅れることもありますので、ニュースとしては役に立たないこともある。IT系・技術系が主たる対象であります。


Machine Vision’s Achilles’ Heel Revealed by Google Brain Researchers

photo credit: System Lock via photopin (license)

By some measures machine vision is better than human vision. But now researchers have found a class of “adversarial images” that easily fool it.
by Emerging Technology from the arXiv July 22, 2016

いくつかの点においてマシン・ビジョンは人間よりも優れています。 しかし今回、研究者たちは、機械を簡単に騙すことのできる「阻害画像(アドバーサリアルイメージ、敵対的画像)」という分類を見つけました。

  • measures - 措置、対策
  • adversarial - 訳語としては「敵対的」となるようですが、「adversarial trade」で「阻害貿易」ということだそうなので、ここでは「阻害」としました。英英辞書の説明では「紛争や意見の衝突に関与したり特徴づけられている」と説明されています。

One of the most spectacular advances in modern science has been the rise of machine vision. In just a few years, a new generation of machine learning techniques has changed the way computers see.

現代科学の多くの華々しい進歩の一つが、マシン・ビジョンの台頭でした。 わずか数年で、機械学習技術の新世代が、コンピューターが見る方法を変えてしまいました。

  • spectacular - 華々しい、壮観な

Machines now outperform humans in face recognition and object recognition and are in the process of revolutionizing numerous vision-based tasks such as driving, security monitoring, and so on. Machine vision is now superhuman.

今や機械は、顔認識と物体認識で人間をしのぎ、運転やセキュリティモニタリングなどのような、視覚に基づいた多数の仕事を革新していくプロセスにあります。マシン・ビジョンは、 今や超人です。

  • outperform - しのぐ
  • revolutionizing - 革命
  • numerous - 多数の

But a problem is emerging. Machine vision researchers have begun to notice some worrying shortcomings of their new charges. It turns out machine vision algorithms have an Achilles’ heel that allows them to be tricked by images modified in ways that would be trivial for a human to spot.

しかし、ある問題が浮上しています。 マシン・ビジョンの研究者が、それらの新しいチャージ(?)の欠点について、いくつかの心配事に気付き始めました。 人間にとっては簡単に見つけられる、些細に思える方法で修正された画像によって騙されるという弱点(原文はアキレス腱)を、マシン・ビジョンのアルゴリズムが持っていることが判明します。

  • shortcomings - 欠点
  • charges - 課金、罪状、追加料金
  • turns out - 判明


These modified pictures are called adversarial images, and they are a significant threat. “An adversarial example for the face recognition domain might consist of very subtle markings applied to a person’s face, so that a human observer would recognize their identity correctly, but a machine learning system would recognize them as being a different person,” say Alexey Kurakin and Samy Bengio at Google Brain and Ian Goodfellow from OpenAI, a nonprofit AI research company.

これらの修正された写真は阻害画像と呼ばれ、それらは重大な脅威です。 「顔認識の領域での阻害例は、人の顔に施された、とても微妙なマーキングに基づいているかもしれない。 そのため、人間の観察者は正確に、その同一性を認識するだろうが、機械学習システムは、それらを別の人間がいるものとして認識するだろう。」 Google Brain の Alexey Kurakin と Samy Bengio、非営利のAI研究企業である OpenAI の Ian Goodfellowが、このように言っています。

  • significant - 重大な。
  • threat - 驚異
  • subtle - 微妙

Because machine vision systems are so new, little is known about adversarial images. Nobody understands how best to create them, how they fool machine vision systems, or how to protect against this kind of attack.

マシン・ビジョンシステムはとても新しいため、阻害画像については少ししか知られていません。 それらを作るための最高の方法や、いかにしてそれらがマシン・ビジョンを騙すのか、あるいはその攻撃から保護する方法を、だれも理解していないのです。

Today, that starts to change thanks to the work of Kurakin and co, who have begun to study adversarial images systematically for the first time. Their work shows just how vulnerable machine vision systems are to this kind of attack.

最初に阻害画像をシステマチックに研究し始めた Kurakin と仲間の取り組みによって、今日変化が始まります。 彼らの取り組みは、マシン・ビジョンシステムがこの攻撃に対して、どれほど脆弱であるかということを見せています。

The team start with a standard database for machine vision research, known as ImageNet. This is a database of images classified according to what they show. A standard test is to train a machine vision algorithm on part of this database and then test how well it classifies another part of the database.

このチームは、マシン・ビジョンの研究用のImageNetという標準的なデータベースで始めました。 これは、それらが見せているものによって分類された画像のデータベースです。 標準的なテストは、このデータベースの特定部分で、マシン・ビジョンアルゴリズムを訓練することであり、その後、データベースの他の部分を如何にうまく分類するかをテストします。

The performance in these tests is measured by counting how often the algorithm has the correct classification in its top 5 answers or even its top 1 answer (its so-called top 5 accuracy or top 1 accuracy) or how often it does not have the correct answer in its top 5 or top 1 (its top 5 error rate or top 1 error rate).


One of the best machine vision systems is Google’s Inception v3 algorithm, which has a top 5 error rate of 3.46 percent. Humans doing the same test have a top 5 error rate of about 5 percent, so Inception v3 really does have superhuman abilities.

最高のマシン・ビジョンシステムの一つは、グーグルの Inception v3 アルゴリズムで、これは、上位5つのエラー率が、3.46パーセントです。 人間が同じテストをすれば約5パーセントですから、Inception v3 は正に超人的能力を持っています。

Kurakin and co created a database of adversarial images by modifying 50,000 pictures from ImageNet in three different ways. Their methods exploit the idea that neural networks process information to match an image with a particular classification. The amount of information this requires, called the cross entropy, is a measure of how hard the matching task is.

Kurakinのチームは、ImageNetの5万枚の写真を、3つの違った方法で修整することにより阻害画像のデータベースを作りました。 彼らの手法は、特定の分類によって画像を一致させるために、ニューラルネットワークが情報を処理するという考えを開発しています。 これに必要となる情報量は、クロス・エントロピーと呼ばれ、マッチングのタスクが難しいのかの尺度です。

  • exploit - 開発する

Their first algorithm makes a small change to an image in a way that attempts to maximize this cross entropy. Their second algorithm simply iterates this process to further alter the image.


These algorithms both change the image in a way that makes it harder to classify correctly. “These methods can result in uninteresting misclassifications, such as mistaking one breed of sled dog for another breed of sled dog,” they say.

これらのアルゴリズム両方が、正確な分類を難しくするように画像を変更します。 「これらの手法が、そりを引く犬の1品種を他の品種に間違うような面白くない誤分類の結果を出せるのです。」 彼らはこのように言います。

Their final algorithm has much cleverer approach. This modifies an image in way that directs the machine vision system into misclassifying it in a specific way, preferably one that is least like the true class. “The least-likely class is usually highly dissimilar from the true class, so this attack method results in more interesting mistakes, such as mistaking a dog for an airplane,” say Kurakin and co.

彼らの最終的なアルゴリズムは、かなり、より賢いアプローチをとっています。 これはマシン・ビジョンシステムに誤分類させるように画像を修正します。 むしろ真の分類に一番似ていない、特定のやりかたです。 「この最低類似分類は通常は真の分類とは大きく異なります。ですから、この攻撃手法は、犬を飛行機に間違えたりするような、より興味深い間違いの結果を出します。」 Kurakinのチームは言っています。

  • directs - 【動詞】指示を出す、~させる
  • preferably - 望ましくは、むしろ、できれば、
  • dissimilar - 異なる

They then test how well Google’s Inception v3 algorithm can classify the 50,000 adversarial images.

彼らは、そこで、グーグルの Inception v3 アルゴリズムがどれほどうまく5万枚の阻害画像を分類するかをテストします。

The two simple algorithms significantly reduce the top 5 and top 1 accuracy. But their most powerful algorithm—the least-likely class method—rapidly reduces the accuracy to zero for all 50,000 images. (The team do not say how successful the algorithm is at directing misclassifications.)

2つの単純なアルゴリズムは、トップ5精度とトップ1精度をかなり減らしました。 しかし、彼らの最もパワフルなアルゴリズム ― 最低類似手法 ― は、5万枚の画像に対して、その精度を急速にゼロまで減らしました。 (このチームは、誤分類させる、そのアルゴリズムがどのようにして成功したのかについて話していません。)

That suggests that adversarial images are a significant threat but there is a potential weakness in this approach. All these adversarial images are fed directly into the machine vision system.

これは、阻害画像は重大な脅威であるということを示唆していますが、このアプローチに弱点となる可能性があります。 全てのこれらの阻害画像は、マシン・ビジョンシステムに直接与えられたものです。

  • fed - feedの過去分詞。与える

But in the real world, an image will always be modified by the camera system that records the images. And an adversarial image algorithm would be useless if this process neutralized its effect. So an important question is how robust these algorithms are to the transformations that take place in the real world.

しかし、現実の世界では、画像は常に、画像を記録するカメラシステムによって修正されます。 そして、阻害画像のアルゴリズムは、もしこの処理がその効果を中和したならば、使用できないでしょう。 ですから、これらのアルゴリズムが、現実世界の場所を占める変換まで、いかに堅牢であるかということが重要な問題です。

To test this, Kurakin and co print out all the adversarial images along with the originals and photograph them by hand with a Nexus 5 smartphone. They then feed these transformed adversarial images into the machine vision system.

これをテストするために、Kurakinのチームはすべての阻害画像をオリジナルと一緒に印刷し、Nexus 5 スマートフォンで撮影しました。 彼らはそして、これらの変換された阻害画像をマシン・ビジョンシステムへ与えます。

Kurakin and co say that the least-likely class method is the most vulnerable to these kinds of transformations but that the others bear up reasonably well. In other words, adversarial image algorithms really are a threat in the real world. “A significant fraction of adversarial images crafted using the original network are misclassified even when fed to the classifier through the camera,” say the team.

Kurakinのチームは、最低類似分類手法は、これらの変換種類に対して、もっとも脆弱であったが、他はほどほどにうまく耐えました。 言い換えれば、現実世界において、阻害画像のアルゴリズムが実際に脅威だということです。 「カメラを通じて分類器に与えられたとしても、オリジナルのネットワークを使用して作られた阻害画像のかなりの割合が誤分類されました。」 そのように、このチームが言っています。

  • bear up - 耐える
  • reasonably - 合理的に、ほどほどに

That’s interesting work that throws some important light on machine vision’s Achilles’ heel. And there’s plenty of work ahead. Kurakin and co want to develop adversarial images for other kinds of vision systems and make them even more effective.

これは興味深い取り組みです。マシン・ビジョンの弱点に当てられた、いくつかの重要な光を投げかけているのです。 そして、多くの仕事が前方に存在します。Kurakinのチームは、他の視覚システムのために、阻害画像を開発し、少しでも効果的にしたいのです。

All this will raise some eyebrows in the computer security community. Machine vision systems are now better than humans at recognizing faces, so it’s natural to expect them to be used to for everything from unlocking smartphones and front doors to passport control and bank account biometrics. But Kurakin and co raise the prospect of fooling these systems with ease.

このすべてが、コンピューターセキュリティのコミュニティを驚かせるでしょう。 マシン・ビジョンシステムは今や顔認識において人間よりも上手いので、当然のように、スマートフォンや玄関のロックを外すことから、入国管理や銀行口座のバイオメトリックスまでの全てにおいて使用されることが期待されています。 しかし、これらのシステムを簡単にだませるという見通しをKurakinのチームが掲げているのですから。

  • prospect - 見通し
  • raise eyebrows - 眉を挙げる、眉をひそめる(賛成しない)、驚かせる

In the last couple of years we’ve learned a lot about how good machine visions systems can be. Now we’re just finding out how easily they can be fooled.

直近の2年で、マシン・ビジョンシステムがどれほど良くなれるのかということについて、私たちは多くを学びました。 今、私たちは、それらが如何に簡単にだまされるのかということを、見つけ出したところです。

Ref: arxiv.org/abs/1607.02533 : Adversarial Examples in the Physical World

実践 コンピュータビジョン
Jan Erik Solem
売り上げランキング: 85,254