自動で文字化できるボイスレコーダーAutoMemoは普通のボイスレコーダーと何が違う

AutoMemo PCM-A10、ICD-UX575F、AutoMemoパッケージ

こんにちは、ヒーニョンです。
自動で文字になるボイスレコーダーAutoMemo（オートメモ）をソースネクスト様より2週間貸していただけたので、いろいろと試してみたことを情報共有します。
この記事のAutoMemoはバージョン1.0.14です。

新型のオートメモS（AutoMemo S）のレビュー記事はこちらです。
>>自動で文字化できるボイスレコーダーAutoMemoは普通のボイスレコーダーと何が違う

ボイスレコーダーの競合
操作の流れ
使い道（用途）
まとめ
こちらで購入できます
関連記事

ボイスレコーダーの競合

僕はボイスレコーダーを昔から使っていて、これまで5機種ほど使ってきたマニアです。いま愛用しているソニーの2機種（PCM-A10、ICD-UX575F）との違いを交えながらAutoMemoの良さと残念なところを書きます。

まずはAutoMemo、PCM-A10、ICD-UX570Fの比較表です。

型名	AutoMemo	PCM-A10	ICD-UX575F / UX570F
録音音質	星2	星5	星3
内蔵メモリ	8GB	16GB	16GB / 4GB
価格	18,000円（税抜）毎月1時間までテキスト化は無料	Amazonで約15,300円から19,800円	Amazonで4GBモデル約9,300円から12,000円
対応メディア	なし Wi-Fiにてクラウドへ容量無制限でアップロード	microSDHC / microSDXC クロスメモリ録音対応	microSDHC / microSDXC クロスメモリ録音対応
外形寸法	約130×41×12mm	約109.5×39.2×16.0mm	約102.8mm×36.6mm×12.2mm
本体重量	約86g	約82g	約48g
電池	リチウムイオン電池（USB-Cでの充電）	リチウムイオン電池（USB-Aダイレクト接続、データ転送機能あり）
電池持続時間（録音時）	約5.5時間	約22時間 192kbps（STEREO）	約22時間 192kbps（モノラル）
録音形式	MP3	LinerPCM（ハイレゾ）/ MP3	LinerPCM / MP3
最大録音時間	約30時間	159時間00分 192kbps（STEREO）	159時間 / 39時間45分 MP3 192kbps
録音シーン設定	–	シーンセレクト機能	シーンセレクト機能
ノイズ軽減	–	録音フィルター	○
マイクジャック	○	○	○
少し前から録音	–	プリレコーディング機能	–
音がしたとき自動録音	–	VOR録音	VOR録音
書き起こし機能	※スマホアプリから確認・テキスト化・ブックマーク・テクスト指定で頭出し・再生速度	・書き起こしモード・トラックマーク・イージーサーチ（指定秒巻き戻し、早送り）・DPC（再生速度調整）	・トラックマーク・イージーサーチ（3秒巻き戻し、10秒早送り）・DPC（再生速度調整）
PCアプリ	–	Sound Organizer2（Win版のみ）
スマホアプリ	AutoMemo(オートメモ) ・データ確認	REC Remote ・録音操作・設定（遠隔操作）	–
内蔵スピーカー	–	○16mm	○16mm
ワイヤレス再生	– ※アップロード後スマホアプリから可能	○Bluetooth	–
ヘッドホンジャック	–	○	○
その他	・USB-Cケーブル付属（電源アダプターなし）	・キャリングケース付属・ストラップホール・三脚穴	・キャリングケース付属・ストラップホール・FMラジオ

AutoMemoの外見はボイスレコーダーとは思えないシンプルな形状で質感も高いです。
録音音質は僕の耳での個人的な見解です。

AutoMemoは小さな音でも拾おうとする能力は高いのですがノイズまで多く拾い長時間聞くのは辛いです。

PCM-A10は演奏や自然界、環境音を忠実に録音できる性能で音域が広いのですが言語を認識するには少し過剰に聞こえます。
ICD-UX-570Fは音声を聞きやすく録音することに特化しています。

次の図が同じ音声を録音した波形です。

録音データファイルのプロパティ情報です。ソニーの2機種はシーンを会議にしてデフォルトの音質で録音しています。
AutoMemoはステレオで録音できていますがビットレートは低いようです。

型名	AutoMemo	PCM-A10	ICD-UX575F/UX570F
フォーマット	MP3 (MPEG-2 Audio Layere3)	MP3 (MPEG-1 Audio Layere3)	MP3 (MPEG-1 Audio Layere3)
時間	4:21	4:23	4:23
サイズ	1.5MB	6.1MB	6.1MB
ビットレート	47kbps	192kbps	192kbps
サンプリング周波数	16kHz	44.1kHz	44.1kHz
チャンネル数	2ch	2ch	2ch

操作の流れ

AutoMemoの操作の流れは4ステップです。手順2のアップロードは自動で行われるのでやることは3つです。AutoMemoで録音して、スマホでデータ確認、データ加工するならパソコンです。

1. 録音

操作は簡単です。電源を入れ、録音ボタンを押すと録音開始、もう一度押して録音終了です。会話の重要なところや、議題が変わったところでブックマークボタンを押せば後からのデータ確認が楽になります。
録音の音質に関する設定はなくすべて自動です。

公式サイトでは、「本体を話者からできるだけ近く（1m以内）に置き」と書いてあります。そこで1m間隔で5mまで離れるとどうなるのか実際に試してみました。
静かな部屋（約30dBA）の環境で日常会話レベルの声の大きさ（約50dBA）で文章を音読し、AutoMemo、PCM-A10、ICD-UX570Fの3機種で同時に録音しました。
結果は1mから4mまでは大きな違いはなく、5mになるとAutoMemoは聞きづらくなり、テキスト化の精度も少し落ちました。しかし、実際に5m離れた会話で50dBAは小さすぎます。少し声を張ると思います。約60dBAの大きさで試すとテキスト化の精度は保たれました。静かな環境であれば、人の耳での認識と差がないように感じました。
下図はテキスト化したデータです。ハイライト部分が誤認識です。

連続録音時間は約5.5時間（電源が入った待機状態は約6.5時間）です。充電しながらなら30時間も使えますし、録音時にWi-Fiがなくても録音可能です。Wi-Fiを自動で見つけクラウドへ自動で録音データをアップロードします。

操作ボタンが3つ（電源ボタン、録音ボタン、ブックマークボタン）あります。操作したときに起動音や通知音が鳴らないので周りを気にする必要はありませんが、物理的な「ポコ」という音はします。

すべての状況把握はLEDライトの光り方をみます。

録音ボタン： ◯回転－起動中、◯点灯－録音待機、・点灯は録音中
電源ボタン下のWi-Fi接続状況：緑－接続、赤－未接続
USB端子横：赤－充電中、緑－充電完了

充電レベルは電源ボタンを軽く押すと録音ボタンの周りが電池残量分光ります。（電池残量50％であれば、半円分光る）

残念なところは、録音レベルが確認できないので音の大きさが把握できませんし、実際に録音できているかも分からないです。

2. アップロード

Wi-Fiの登録はスマホ経由で1度だけする必要がありますが、あとは自動的に接続して録音データがあれば自動的にクラウドへアップロードしてくれます。録音データの容量無制限（保存件数・期間は無制限）でアップロードできるし、データ紛失の可能性が低いのはソニー製よりも優れています。
録音データをアップロードする時間は気になりませんでしたが、Wi-Fi規格はIEEE802.11b/g/nで古く、最近のWi-Fi5、Wi-Fi6の5GHz（IEEE802.11ac/ax）では通信できません。

設定によりアップロード完了後に自動でメール（録音データのURL）を受け取れます。パソコンでの作業に便利です。
さらにアップロードと同時に自動でテキスト化する設定もあります。テキスト化には少し時間が掛かり目安として、公式サイトでは「録音時間の3分の1程度の時間が必要」と書いてあります。実際に12分のデータをテキスト化してみると5分かかりました。内容にもよると思いますが瞬時にテキスト化されるわけではありません。

3. データ確認

AutoMemo本体には音声の再生機能はありません。スマホの専用アプリ（iPhone版、Android版）からデータ確認（録音データの再生は無料）できます。データはクラウドにあるためネットワーク接続が必須です。テキスト化したデータも同様です。
スマホアプリからは録音データとテキストの編集はできませんが、録音データ毎のタイトルやブックマークの編集は可能です。

テキスト化には2つの方法があります。アップロードと同時にテキスト化する方法と、あとから個別にテキスト化する方法です。後述しますがテキスト化は別途費用がかかります。そのためアップロードと同時にテキスト化は便利なのですがミスする可能性もあるので現実的には、個別にテキスト化することになります。

録音データをテキスト化するサービスは、3つの料金体系です。
※発売記念キャンペーンで2020年12月4日～2021年3月31日までならプレミアムプランが6か月間無料になります。

サービス	費用	テキスト化できる録音データ時間
ベーシックプラン	無料	毎月1時間まで ※翌月への繰り越しは不可
プレミアムプラン	月額980円（税込）	毎月30時間まで ※翌月への繰り越しは不可
10時間チャージ	1回980円（税込）	1回のチャージで10時間 ※翌月以降に繰り越せます

本体購入時はベーシックプランになっています。プランの変更はスマホアプリ内からできます。

テキスト化の精度を実際に計ってみました。静かな部屋で目の前にAutoMemoを置き、公式サイトの文章を音読しました。音読時間は約8分です。文字数は2056文字です。アナウンサーは1分300文字と言われていますが、訓練していないと難しく、個人的には速く読み上げた感覚で、普段音読しないのでカミカミでAutoMemoには申し訳ないほど聞きづらかったと思います。

マーカーの意味は、

黄色（誤認識）: 79文字
ピンク（誤変換）: 6文字
ブルー（誤読）: 36文字

誤読は僕が悪いので除外して、1-(79+6)/2056 = 変換精度は96%になりました。想像以上にできていると感じました。

テキスト化は日本語だけでなく英語、中国語はもちろん、全部で72言語をテキスト化可能です。ただし言語を自動認識するのではなく、テキスト化する言語をあらかじめ指定するため、複数の言語が入り交じる会話では1言語を選ぶためうまくテキスト化できません。

再生は、動画ソフトのように再生ボタンと再生位置を調整できます。早送り、巻き戻しボタンは約5秒移動します。テキスト化していれば、語句をタップするだけで頭出しができます。録音データから聞きたい部分を探し出すのは面倒な作業です。この機能がAutoMemo最大の魅力だと僕は感じました。さらに再生中は再生している語句をハイライト表示し、オートスクロールして追っかけます。

ソニーのICD-UX570Fシリーズは音声だけなので聞きたい部分を再生するには、トラックマーク（AutoMemoのブックマーク同類）と早送り、巻き戻しを使い大まかな位置に合わせ、イージーサーチで-3秒、+10秒で目的の部分を再生します。この機能も便利ですが、AutoMemoの選択した文字を再生する機能にはかないません。

音声の聞き取りにくい箇所は再生速度をx0.5とx0.75に変更しスロー再生できますし、すべてを聞き直すなら高速再生x1.25、x.15、x2.0があり時短できます。

テキスト化が自動でできてしまうと欲が出るもので、テキストに誰が発言したのか話者を特定したくなりますが、残念ながらできません。テキストの語句をタップすれば、音声でわかるので僕は気になりませんでした。

再生で一番気になった問題はノイズです。ノイズ軽減機能がないため「サー」という音が耳障りで長時間聞くのは疲れます。
音声の波形を比べてみるとAutoMemoは波形が太く音読していないときも音を拾っていることがわかります。

録音データのノイズ軽減は難しいとしても、再生時のノイズ軽減機能はアプリに付けてほしいです。ソニーのパソコンアプリSound Organizer2は無償でありながらノイズカット機能があり、AutoMemoの録音データでもかなりクリアに聞こえるようになります。
ソニーICD-UX570Fは音声録音に特化しているためかノイズはほぼゼロでボイスレコーダーとして優秀です。PCM-A10は環境を拾うので音声をハッキリ聞く目的としては負けてしまいます。演奏や歌を録音する機材です。

テキスト化のメリットは検索です。クラウドにあるテキスト化されたデータすべてとタイトルを対象に全文検索できます。また各データ毎の検索ができます。
検索ワード箇所を再生する目的では、若干使い勝手が悪いと感じました。全文検索は該当ファイルの絞り込みですし、各データ毎の検索はハイライト表示だけで該当箇所までスクロールしてくれません。テキストが長いと探すのが大変です。

4. データ加工

データ加工はスマホアプリではできません。スマホアプリから共有機能を使ってメールなどでデータを送る必要があります。録音データは指定のURLからブラウザ経由でダウンロードし、テキストはメール本文からコピー＆ペーストです。

パソコンでデータを加工すると、録音データとテキストは無関係なのでスマホアプリのように語句指定した箇所を再生する機能がありませんしブックマークもなくなります。そのためスマホで再生確認し、パソコンでテキストを校正するため、視線の移動が激しくて疲れます。
恐らくクラウドのデータは音声とテキストのリンク関係を保持しているので、テキストの編集を許してしまうには難しい課題があるためスマホアプリから編集できないものと推測します。せめてパソコンで再生専用アプリがあれば、テキストエディターと並べて校正できてよかったと思います。

ソニーのPCM-A10、ICD-UX570Fはパソコン版アプリがありますが、文字起こしの細かな頭出しの調整はボイスレコーダー本体の方がしやすいため、同じく視線移動が多くなり疲れます。ソニーもパソコン版アプリを強化してほしいです。トラックマークはパソコンアプリから使えるのはソニーの良いところです。

AutoMemoを機密情報で使うのは現状では危険だと思います。その理由は録音データのURLはhttps通信により暗号化されているとはいえ、URLがわかればパスワードなしで誰でも聞くことができます。URLは推測されないようハッシュ値のような文字列で、無作為に探し出すのは難しいですし、特定のAutoMemoを狙って傍受となるとさらに難しいと思いますが、可能性はゼロではありません。また人為的にURLの流出が恐れられます。そのためなのか、ソースネクストではOneDrive、Google Drive、DropBoxへの音声データ、テキストデータ転送機能を開発中で2021年2月末の実装を予定しています。
個人的にはクラウドよりはローカルに対応してほしいです。
しかし、セキュリティを厳しくするほど使い勝手が悪くなるので、個人ニーズとしては楽な方がよいですね。ボイスメモ聞くのに毎回パスワード入力とかしたくありませんからね。

使い道（用途）

操作の流れを踏まえて、使い道を考えてみました。

ボイスメモ

アイデアやヒラメキを書き留めるためのボイスメモとして活用できます。自動でテキスト化して、あとから検索して記憶を引き起こせます。
課題は、常に携帯することになるので、ストラップホールを本体に付けてほしかったです。欲を言えば胸ポケットに入るくらいにもっと小さくしてほしいしところです。さらに専用のポーチがあれば傷も気にならないです。
AutoMemo専用ケース（税別1,500円）を発売予定でストラップホールが付いているみたいです。TPU素材で厚みがわかりませんがボタンの誤操作防止にもなるかもしれません。

電源ボタンを押してから録音まで約6秒ほどかかるので、もっと速くしてほしいです。誤操作防止だと思いますが、電源のオン・オフが微妙にボタン長押しなのが面倒に感じました。

打ち合わせや会議の議事録

社長の訓示など、発言をそのまま文章にする必要があるならオススメです。なんせ録音するだけで96%完成しています。
要約する議事録でも聞きたい部分の頭出しは語句を選べばすぐに再生できるのは便利です。
僕は1時間の会議で議事録担当すると、普通のボイスレコーダーだと議事録作成に3倍の3時間かかります。AutoMemoならほぼ文字化できているので会議時間と同じ1時間ほどで終わりそうです。

20人規模の会議は10mほどの空間になるので、会議テーブルの中央にAutoMemoを置いて録音したいのですが、リモート操作はできないので外部マイクを繋ぐ必要性があります。

講演会やセミナーの記録

テキスト化すれば、検索できるので復習に活用できます。一方通行の会話で、講師がマイクを使いスピーカーからの音を拾うことになるので、テキスト化の変換精度が心配です。
セミナーで試すタイミングがなかったので、自宅のマイクとステレオスピーカーで試してみると肉声より大きな音ならテキスト化できました。マイク部で40dBAほど小さくなるとまったくテキスト化されていませんでした。またパソコンで映画を再生したものを録音してテキスト化すると、効果音やBGMなどの関係で誤認識がかなり増えます。
スピーカーからの録音は、不要な音がなく、肉声より大きな音であれば使えると感じました。幸いセミナーでの講師の声はスピーカーから大きくきこえることがほとんどなので心配なさそうです。

取材やインタビュー

取材は記事を作成することになるので、文字起こしもしますし、データを聞き直すことが多く、頭出し機能が活用できます。
取材では写真を撮るので、写真の撮影時刻から発言内容を確認したいことがあります。AutoMemoは録音開始時刻から再生箇所の時間を計算する必要があり面倒です。ソニーのPCM-A10、ICD-UX570Fはトラックマークに時刻表示できます。さらにトラックマークは指定間隔で自動付加できるので、5分毎にしておけば、撮影時間からすぐに再生箇所を探し出せるので便利です。

取材で動き回るときは、ボイスレコーダーを胸ポケットに入れたまま録音します。そのとき誤操作でボタンを押してしまい録音停止という大失敗をします。ソニーのPCM-A10、ICD-UX570Fはホールド機能があり、ボタンを押しても動作しないようにできます。

また、テキスト化には制限時間があります。録音データ中の不必要な部分に制限時間をさきたくないです。ソニーにあるような「音がしたとき自動録音（VOR録音）」してムダな時間を省いたり、録音後に必要な部分だけトリミングしてからテキスト化できるようになれば気が楽になるので、なんとかしてほしいと感じます。

まとめ

録音音質にこだわるならソニーですが、文字起こしが主であれば録音データは成果物ではありません。AutoMemoはテキスト化することによって活きます。肉声であれば精度は高く、スピーカー音は工夫次第です。
96%テキスト化できているのは驚きですし、普通のボイスレコーダーでは考えられなかった語句選択での頭出し機能だけでも大きな価値があります。

テキスト化にともなう課金が気になるところですが、個人的用途でボイスメモであれば月1時間で足りますし、ときどきセミナーに参加するなら、都度10時間チャージがうまく使えると思います。
文字書き専門のライターであれば、プレミアムプランは必須でしょう。

使い勝手で気になる部分もありますが、ソフトウェアで対応できる問題であれば、こまめにアップデートしてくれるソースネクストですので期待しています。

ではまたヾ(^^へ)