光学およびフォトニクスのニュース

May 06, 2023

ハンナ・ランフォード

ゲルト・コルテマイヤー

AI チャットボットが物理の授業に合格できるとしたら、教育者にとっては何を意味するのでしょうか? 学界における大規模な言語モデルをめぐる議論に興味をそそられたゲルト・コルテマイヤー氏は、現在スイスのチューリッヒ工科大学で教育開発およびテクノロジーのディレクターを務めており、文字通り、ChatGPT をテストすることにしました。彼は、微積分ベースの物理コースの実際の宿題と試験への応答に基づいて、GPT-3.5 は確かに (かろうじて) 合格点を達成できたと報告しています (Phys. Rev. Phys. Educ. Res., doi: 10.1103/) PhysRevPhysEducRes.19.010132）。

一部の人にとって、この結果は学術的誠実性について懸念を引き起こすかもしれません。しかし、米国で長年物理学入門を教えてきたコルテマイヤー氏は、AIが不正行為を可能にする可能性については特に心配していない。むしろ、物理学の学生を実際にどのように教え、評価しているのかという疑問が生じると彼は言う。 OPN はコルテマイヤー氏に、物理教育と GPT の将来についての考え、そして授業で伝えたいと望んでいる「人間本来の」スキルについて語りました。

ゲルト・コルテマイヤー:驚くべきことではありませんでしたが、ボットの間違いが実際の学生が犯す間違いにどれだけ近かったのか、最初はそう思いました。それがどのような本文でトレーニングされたのか正確にはわからないので、驚かないでください。物理学に関するディスカッションフォーラムさえ含まれていたかもしれません。

しかし、確率論的なオートコンプリートメカニズムにすぎないものが、基本的にはパターンマッチングであり、学生の行動を模倣するということに私は驚きました。そうなると、私たちがこれまで何をテストしてきたのか疑問に感じます。

実際にパターンマッチングをテストしているのでしょうか? そのようなアルゴリズムがうまく機能する場合、パターンマッチングに基づいて物理の成績を与えることになるでしょうか?

生徒がこれらの標準化された評価に向けて訓練を受けると、ある種の小さなロボットになってしまいます。基本的に、あなたはこれらの子供たちを機械と同じように訓練しました。

OpenAI は、標準化された評価に関して GPT がどのように行われるかを示す論文を発表しました。 ACT、SAT、それらすべてについては、上位パーセンタイルで終了します。つまり、生徒がこれらの標準化された評価に向けて訓練を受けると、ある種の小さなロボットになってしまうということです。基本的に、あなたはこれらの子供たちを機械と同じように訓練しました。そしてそれは私を怖がらせます。

物理学入門コースの成績も、試験、宿題、プログラミングプロジェクト、クリッカー質問などの非常に標準的な評価に基づいています。したがって、ChatGPT が合格したことにはそれほど驚く必要はありません。結局のところ、これらの入門的な物理問題を解決するのは、非常にアルゴリズム的なものだからです。

まあ、学生はこれらの問題を解けるようにする必要があります。高度な物理学、つまりニュートンの法則や回路法則などの基本概念を学びたい場合は、実用的な知識を頭の片隅に入れておかなければなりません。なぜなら、その知識をすぐに引き出せなければ、物理学で進歩することはできないからです。したがって、AI が基礎的な物理学を実行できるとしても、学生もそれを実行できると評価できる必要があります。そして、AI ツールは、本当に高度な物理学に関してはほぼ確実に失敗します。

したがって、私たちは依然としてこれらのことを評価する必要がありますが、それだけではありません。人工知能が向上するにつれて、私たちは人間が本来備えているスキルにも焦点を当てる必要があります。人間の知性とは何でしょうか？人間の創造性とは何でしょうか？私のクラスでは、ただ事実を暗記するだけではなく、もう少し多くのことを教えるように常に心がけています。私は人々に物理学に興味を持ち、批判的に考えて、これらの原則を日常の状況に適用してもらいたいと考えています。私はこれらすべての種類のメタ認知プロセスを実行したいと考えています。

たとえば、私が宿題を出し、最終的に、車は時速 4000 マイルで走行していると答えたとします。人間として、それを見て、「これはおそらく時速 40 マイルだろう。戻りましょう。私はここで何をしたでしょうか?」と言うでしょう。人間には、「これは現実的でしょうか?」と問う能力があります。

絶対にないとは言えませんが、人工知能が何か新しいことを発見することには程遠いです。それ自体に疑問を持たないからです。それは自然を問いません。

AI から同じクレイジーな答えが得られた場合、AI はその答えをそのまま進めます。間違っているときは、2桁も間違っていて、「だから何? それが私の結果だ」という感じになります。人間には常に背後で考える能力がありますが、これは本当でしょうか? それはあなたの答えを評価する全く異なる方法です。それは解決に導く方法ではありません。現在、AI にはこれらのプロセスがありません。それはただ勢いよく進み、結果が飛び出すだけです。

問題を見て、計算して、へー、面白いな、どうしてそうなったの？絶対にないとは言えませんが、人工知能が何か新しいことを発見することには程遠いです。それ自体に疑問を持たないからです。それは自然を問いません。

それらを評価する唯一の方法は、より長期的で大規模な評価を行うことだと思います。その究極の例が博士論文です。人は何年もかけて、それまでまったく未知のことを研究します。好奇心、メタ認知、基礎知識、これらすべてのツールがなければ、物理学の博士論文を完成させることはできません。

では、それをより低いレベルにスケールダウンするにはどうすればよいでしょうか? 私が授業で見つけた唯一の方法は、より長いプロジェクトを割り当てることでした。私は学生たちに「MythBusters」ビデオを作成するなどの作業を行わせました。そこでは、研究対象の都市伝説を選択し、その背後にある実際の物理学の説明をまとめました。あるグループに質問してもらいました。バーでの喧嘩になった場合、満杯のボトルと空のボトルで頭をぶつけられるのはどちらが良いですか?

そこで彼らは、スプリングの「ネック」にビリヤードのボール「ヘッド」を付けた小さな機械を作り、ビリヤードのボールに加速度センサーを取り付け、ボトルを取り付けることができるスイングアームを作り、ボトルをボールに叩きつけて測定しました。加速度。彼らは、起こり得る最悪の事態は、エネルギーが消散しないために瓶が割れないことであることを発見しました。そして彼らはその物理学をうまく文書化しました。

ここで、パターンマッチングを行っているだけの人を、本当に興味がある人から区別できます。また、場合によっては、従来の評価では 4.0 ではなく完璧な生徒でも、この環境で成長することがあります。それは科学を行うのとは別の次元です。はるかに時間がかかるだけで、もちろん採点はより主観的になります。

私は米国で多くのPremed学生を教えましたが、彼らにとってのメッセージは、「コースの成績が4.0でなければ、あなたは落第だ」というものでした。そして実際、私たちの大学を訪れていた医学部の入学責任者はこう言いました。「物理学で 3.5 点しか取れないのなら、それには十分な理由があるはずです。」そして私は、冗談だろう、と思いました。 3.5 は物理学の優れた成績です。

喜びが全体から失われていく。私が物理学者になっているのは、それが楽しいからです。クラスの生徒たち、その多くはこの経験を楽しめませんでした。

喜びが全体から失われていく。私が物理学者になっているのは、それが楽しいからです。クラスの生徒たち、その多くはこの経験を楽しめませんでした。ちょっとしたジョークを言ったり、楽しませようとしたり、物事をクラッシュさせたり、壊したりすることもできます。しかし、最終的には、4.0 か 3.5 が重要であることがわかっています。そして医学部は、AI が適切なコースで 4.0 を獲得できたら、それを医学部に認めるかどうかを検討する必要があります。なぜだめですか？何が足りないのでしょうか？

もし私たちがその楽しみをすべて取り除き、それを成績と標準評価に重点を置いたものにしてしまうと、生徒は人工知能のレベルにまで貶められてしまいます。ここは危険だ。

少なくともチューリッヒ工科大学では、性急な判断を下してすぐに規制を施行しないように努めています。一部の大学は直ちに違法化に飛びつき、「AIが生成した単語は一つも評価対象に含まれない可能性がある。これは盗作であり、ゴーストライティングだ」と主張している。彼らは基本的に過去の用語をこの新しいテクノロジーに適用し、次のステップに進んで、それが禁止されている理由だと主張しています。

AI はパンデミックではないというブログ記事を書きました。新型コロナウイルス感染症が発生したとき、私たちは致死性のパンデミックだったので、すぐにルールや規制を考え出しました。そして私たちは、AIを同じように見て、実際に何であるかを理解する前にすぐにルールや規制を思いつくことのないように大学に警告しようとしているだけです。

試験中に人工知能が利用できる場合、本当の問題は人工知能と会話することではなく、他の人々と会話することです。人工知能をクラウドサービスとして利用できるようになると、学生同士が会話できるようになります。これは、AI を使用するよりもはるかに効率的な不正行為の方法になります。友人の教授から信頼できる答えが得られるのに、なぜ AI からの確率的な答えを信頼するのでしょうか? したがって、実際にはそれがより大きなハードルです。人工知能により、インターネット接続と人間のコミュニケーションが可能になります。

ETH では、このような大規模な評価を数時間にわたって行っており、それを 2 つの部分に分けて行うことを考えています。つまり、最初の部分は完全に紙と鉛筆かもしれません。ポケット電卓も何もありません。そして、それをすべて取り除いて、基礎的な知識を評価する方法です。

そして 2 番目の部分は、より高度な問題であり、現実世界と同じように機能します。自由に使えるツールはすべてあり、それは AI だけではなく、Wolfram Alpha や統計ツールなど、ラップトップにあるすべてのツールを利用できます。

まだ問題があるのは対人コミュニケーションだけです。つまり、すべてが協力的です。グループ試験を受けることもできるでしょう。しかし、友人の物理学教授、おそらくそこは一線を引く必要があるでしょう。

私が考える最大の脅威は、人々が人工知能の成果を盲目的に信じていることです。 AI から何が生まれるかについての批判的な疑問は、人々がまだ学んでいないだけなのです。

私が考える最大の脅威は、人々が人工知能の成果を盲目的に信じていることです。 AI から何が生まれるかについての批判的な疑問は、人々がまだ学んでいないだけなのです。それは、ああ、とてももっともらしく聞こえるものを吐き出します。そこに書かれていることはすべて絶対的な真実のように聞こえます。修飾語はありません。アルゴリズム全体が完全に確率的であるとしても、正しい確率は得られません。

AI から何が生まれるか人々が疑問を持たなければ、文字通り大惨事につながる可能性があります。パイロットがもう飛行機の操縦方法さえ実際には知らず、コンピューターの出力が間違っている場合でも疑問を持たなかったため、飛行機事故が起きています。

そのため、ソーシャルメディアによって盲目的な信頼が増幅され、あらゆるものがあっという間に世界に発信されてしまうのです。そして、もっともらしいフィクション（現時点では AI が生み出すもの）が事実になります。そして、同じフィクションが次のテキストコーパス、次のトレーニングデータに反映されると、私たちは真実からどんどん遠ざかっていきます。つまり、それが現時点での最大の課題なのです。

私はそれをツールとして使っている人々にチャンスがあると考えています。たとえば、作家のブロックを克服することです。あなたはそれに、どんなトピックについてもエッセイを書くように指示します。そして、それがもっともらしいフィクションを生み出し、それが良い出発点となるでしょう。それから修正を加え、修正し、同意できない部分を変更し始めます。しかし、場合によっては、最初から始めるよりも修正するほうがはるかに簡単です。

もちろん、そこで疑問が生じます。ChatGPT から直接得られたテキストの小さなスニペットがまだ残っているのでしょうか? おそらくそうだ。これは今では盗作かゴーストライティングでしょうか？正直に言うと、このテキストは自分で作成したと言えますが、おそらく ChatGPT から出てきた同じ順序の単語が 3 つまたは 4 つあるでしょう。それは禁止されるべきでしょうか？私はそうは思わない。盗作とは、他人の作品を自分のものだと主張することです。これはまだ私の作品と言えると思います。 DeepL や Grammarly を使って大きなテキストブロックを翻訳したり修正したりするのと同じように、AI をツールとして使用しています。

これは、結局のところ、大規模なテキストコーパスから収集された、主題についてのさまざまな視点を得る優れた方法です。つまり、トピックについてさまざまな意見やアイデアがあります。まだそれらを解決する必要がありますが、Google 検索ではそれを見つけることはできません。

非常に専門的な質問にも答えることができます。最近の論文では、Excel で特定の種類のプロットを作成する必要がありました。 30分ほどGoogleで調べましたが、作り方が分かりませんでした。 ChatGPT に 1 つの文を入力すると、適切なプロットを作成するためのレシピが得られました。そしてそれはとても効率的でした。質問に正確に答えただけです。

したがって、ツールとしては素晴らしいものになる可能性があります。私はあらゆる種類の方法で非常に定期的に使用しています。

確かに、GPT-4 でいくつかのことを試してみましたが、コースグレードの 80% の範囲に入るでしょう。物理学ではかなりの成績です。

GPT-4 でいくつかのことを試してみましたが、コースグレードの 80% の範囲に入るでしょう。物理学ではかなりの成績です。

私にとっての次のフロンティアは、マルチモーダル入力を使って遊ぶことです。物理学の問題には小さなスケッチが含まれることが非常に多いため、画像の内容を説明するのではなく、それらの画像をシステムに直接入力しようとします。

採点の目的でも勉強してます。私は問題解決策を大量に導き出し、ChatGPT にルーブリックで採点してもらいました。そうすれば R2 は 0.8 以上になります。したがって、実際にはかなり有望です。すべてが完全に達成されたわけではありませんが、ほぼ達成されています。

発行日: 2023 年 6 月 6 日

ゲルト・コルテマイヤー:

前: 未来は今: マットレスメーカー向けの新しい機器テクノロジー » BedTimes Magazine 次: Elektroteks が工場を再考する » BedTimes Magazine

お問い合わせを送信

送信