【画像のテキスト化】便利な英語と日本語の無料オンラインOCR!

PDFや画像をテキスト化する無料Online-OCRを紹介するアイキャッチ画像パソコン

PDFや画像から英語や日本語のテキストを抽出できなくて困った!

保護されたPDFや画像はテキスト抽出ができず、テキストに変換することができませんよね。

わたしは社内翻訳者です。時間がなくて急いで翻訳しないといけないときは、まずGoogle翻訳にかけて時間短縮するのですが、テキスト抽出できない文書だとコピペができない!!

時間がなくてあせっているときにコピペができないと血の気が引きます(笑)。

ということで、使えそうなOCRのソフトを調べてみました。

ABBYY FineReader PDFなどの数万円するような有料ソフトもお試し期間使ってみたりしましたが、会社では買ってくれないので、できれば無料のフリーソフトでなんとかしたい…。

この記事では、いろいろ使ってみた結果、画像をテキスト化するのに一番おすすめで、わたしもずっと使っている、無料のOnline OCRというテキスト抽出ツールをご紹介したいと思います。

ミッキー
ミッキー

無料なのに英語も日本語もちゃんと高精度に文字認識してくれて、ホントに便利なんです。

この記事は、このような方におすすめです。

  • 有料のOCRソフトは高いのでなるべく無料のものを使いたい
  • 無料のソフトをいろいろ使ってみたけれど読み取り間違いが多かった。
  • 読み取り精度が高いOCRツールを教えてほしい。
スポンサーリンク

Free Online OCR (無料オンラインOCR)とは?

OCR (optical character reader)とは、正式には光学式文字読み取り装置のことで、画像化された文字をスキャナで読み込んでデジタル化することをいいます。

ビジネスの現場では、OCR=読み取りということが多く、「OCR可能なテキスト」というような感じで使っていますね

Free Online OCRは、OnlineOCR.netという企業が運営しているFree Online OCR Service (無料のオンラインOCRサービス) です。

PDFや画像をWordやテキストに変換 – Free Online OCR

Free Online OCR (無料オンラインOCR)の特徴は?

Free-Online-OCRの特徴は?のアイキャッチ画像

スキャンしたPDFや画像を文字認識して編集可能なテキストに変換

オンラインOCRは、読み取りできないPDFやファックス、写真、またはデジタルカメラの画像内のテキストや文字を認識して、Adobe PDF、Microsoft Word・Excel、テキストファイルなどのドキュメントに変換してくれます。

  • ソフトをコンピュータにインストールする必要はなく、オンライン上にファイルをアップロードするのでサクサクと作業が進む。
  • 英語はとても精度が高い。

これが最大の特徴です。

読み取ったデータのファイルはもちろんダウンロードしてPCに保存できます。

文字認識は英語や日本語など多言語をサポート

オンラインOCRはマルチリンガル対応の画像

オンラインOCRは、マルチリンガル対応です。

英語、デンマーク語、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、スペイン語、日本語、中国語、韓国語などの46ヵ国の言語をサポートしています。

1つの文書に複数の言語で書かれた文書を処理することもできます。

わたしは英語の文書をOCR化したい場合が多いので、小さい英語の文字の資料やあまり鮮明でない文書を使って読み取り結果を検証してみましたが、感心するくらいきちんと読み取ってくれていました。

また、日本語もある程度は読み取ってくれます。でも日本語であれば、同じようなオンラインサービスのLightPDFのほうが精度はずっと高いです。逆にLightPDFは英語はイマイチ。

テキスト化する言語だけでなく、ホームページ自体も英語、日本語、韓国語、中国語、ドイツ語などなど12ヵ国語に対応しているので、日本語が使えるのも安心ポイントです。

OCRオンラインの会員登録しないゲストと無料の登録会員の違い

Online OCRでは、会員登録をしないまま使用することもできますし(ゲストモードといいます)、無料の会員登録をして使用することもできます。

この2つの使用方法の違いを表にまとめました。

ゲストモード無料会員モード
ファイルサイズ15MBまで200MBまで
ファイル数1時間あたり15ファイル
(複数ページの場合は15頁まで)
1時間あたり15ファイル
(複数ページの場合は15頁まで)
変換できるページ数最大25ページ最大25ページ
OCR化できる
ファイルの種類
PDF(単一ページ)
TIF/TIFF(単一ページ)
PNG、GIF
上記ファイルのZIPファイル
PDF(複数ページ可、全種類のPDFファイル対応)
TIF/TIFF(複数ページ可)
JPEG/JPG、BMP、PCX、PNG、GIF
上記ファイルのZIPファイル
出力の形式Microsoft Word (docx)
Mocrosoft Excel (xlsx)
プレーンテキスト (txt)
PDF (Adobe以外も可)
Microsoft Word (doc, docx)
Mocrosoft Excel (xls, xlsx)
RTF
プレーンテキスト (txt)
アップロードしたファイル完了後に自動削除1ヶ月間保管
その他の違い大きい画像を認識
認識する言語の選択
編集可能なフォーマットへ変換可

ゲストモードも無料会員モードもどちらも無料ですが、何回も使うのであれば、会員登録する方がずっと使いやすいですね。

無料会員の登録をすると、PDFの複数のページがOCR化できたり、PDFや古いエクセルやワードの拡張子も出力できるなど、選択肢がはるかに増えます。

なお、わたしはいままではページを購入する必要がなかったので、まだページ購入はしたことはありません。

1時間あたり15ページ以上変換したいような場合は、購入したいページ数に応じて「購入」ボタンをクリックすることで、ページを購入することで変換することもできます。

無料会員登録をして、ログインしないとページ購入のボタンは出てこないのでご注意ください。

Free-Online-OCR-無料会員登録モードのページ購入のボタンがある画像

これは、会員登録してログインした場合のファイルの読み取りページの画像ですが、右上に「ページを購入」というボタンが出ていますね。

まあ、でもそうそうページを購入しなければならないようなことには、ならないと思いますが…。

オンラインOCRのその他の便利機能

オンラインOCRは、読み取り時に便利な機能がいろいろあります。

  • 自動画像回転
  • 画像上の全ページの傾き補正
  • カラーおよびグレースケール画像ファイルから白黒画像を作成
  • 出力文書に再挿入するために非テキストカラー領域を保持

撮った画像がすごく傾いていた場合には、まっすぐになるよう自動で補正をしてくれます。

Online OCR (オンラインOCR)の使い方

Online OCRの使い方はとってもシンプル。たった4つのステップで、誰でもすぐに使いこなすことができます。

アップロードはこちらのOnline OCRの公式ページからです。

Online OCRのゲストモードのアップロード画面の画像:番号付き

  1. 「ファイル」をクリックしてファイルを選びアップロード
  2. 言語を選択 (英語をテキスト化する場合はENGLISHを選ぶ
  3. 出力フォーマットを選ぶ
  4. CONVERT (コンバート:変換)をクリック

この、選んだ出力フォーマットで自動的にダウンロードされます。とてもシンプルですね。

Online OCR (オンラインOCR)で実際にテキストを抽出してみます

それでは、実際に画像をアップロードしてどのくらい正確にテキスト化できるのか、英語の画像で検証してみます。

Online OCR に、コナン・ドイル著書の「シャーロックホームズの冒険」1話目の冒頭をスクリーンショットで撮った画像ファイルをアップロードしてみます。
著作権の切れた洋書等の作品を掲載している、日本でいうと青空文庫のような「Project Gutenberg」のテキストをスクリーンショットで撮ったものです。
こちらがアップロードする画像です↓

アップロードの方法は、先ほどの使い方のところでご説明したように、

保存しておいた「シャーロックホームズの冒険」のファイルを選び、言語をENGLISHにして選び、出力フォーマットを選び (今回はプレーンテキスト)、コンバート (変換)を押す。

これだけです。

そして、こちらがアップロードしてテキスト化されたところです。

Free-Online-OCR-無料会員登録モードのページ購入のボタンがある画像

このように、画面上にもテキスト文書が表示されるので、コピペして使ってもいいですし、その上の「出力ファイルをダウンロード」というところをクリックして、ファイルをダウンロードすることもできます。

それではテキストファイルと比べてみます。元の画像です↓

こちらがテキスト化したテキストです。

 A SCANDAL IN BOHEMIA
                             Ⅰ.
To Sherlock Holmes she is always the woman. I have seldom heard him mention her under any other name. In his eyes she eclipses and predominates the whole of her sex. It was not that he felt any emotion akin to love for Irene Adler. All emotions, and that one particularly, were abhorrent to his cold, precise but admirably balanced mind. He was, I take it, the most perfect reasoning and observing machine that the world has seen, but as a lover he would have placed himself in a false position. He never spoke of the softer passions, save with a gibe and a sneer. They were admirable things for the observer—excellent for drawing the veil from mens motives and actions. But for the trained reasoner to admit such intrusions into his own delicate and finely adjusted temperament was to introduce a distracting factor which might throw a doubt upon all his mental results. Grit in a sensitive instrument, or a crack in one of his own high-power lenses, would not be more disturbing than a strong emotion in a nature such as his. And yet there was but one woman to him, and that woman was the late Irene Adler, of dubious and questionable memory.    

「Project Gutenberg」の小説は、実際はテキストで取り出せますので、オリジナルのテキストと抽出したテキストをWordと秀丸エディタで文章比較してみました。

すると、違いはアポストロフィの形式だけでした!フォントの違いなのか出力形式の違いなのかわからないのですが、「」このアポストロフィが違うだけで、あとはばっちり全部同じでした。

無料なのに精度が高くてすごいですね。わたしも実際にいろいろなビジネス文書(機密文書は念のためアップロードしないほうがいいかもしれません)をOCR化していますが、かなりの精度でテキスト化してくれるので、とても重宝しています。

スポンサーリンク

とても便利で使いやすいOnline OCR (オンラインOCR)のまとめ

とても使いやすいオンラインOCRのまとめの画像

この記事では、とても使いやすくて精度が高いのに無料のテキスト抽出ツール、Online OCR (オンラインOCR)をご紹介しました。

わたしも仕事でどうしてもテキスト変換したい!というときに重宝しています。

英語はもちろんのこと、日本語も一応画像からテキストを抽出することができるので、とても便利です。

ミッキー
ミッキー

まずは会員登録をせずに、ゲストモードから試してみて、使い勝手のよさを実感してみてください。会員登録も完全に無料ですよ!

タイトルとURLをコピーしました