Hadoopプロジェクトの分散データベース。
小西秀和です。 この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS Certified Data Engineer - Associate」に特化した形で紹介するものです。 重複する内容については省略していますので、併せて元記事も御覧ください。 また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL DevOps Developer SysOps SA Pro SA Associate DE Associate Networking Security…
Fundamentals of Data Engineering まとめ Link Fundamentals of Data Engineering [Book] 目次en I. Foundation and Building Blocks 1. Data Engineering Described 2. The Data Engineering Lifecycle 3. Designing Good Data Architecture 4. Choosing Technologies Across the Data Engineering Lifecycle II. The Data Eng…
www.cureus.com Abstract Our understanding of COVID-19 vaccinations and their impact on health and mortality has evolved substantially since the first vaccine rollouts. Published reports from the original randomized phase 3 trials concluded that the COVID-19 mRNA vaccines could greatly reduce COVID-1…
先週のアップデートを見ていくYo! 参考 GA: Zone Redundant Storage for Azure Disks がより多くのリージョンで利用可能になりました。 https://azure.microsoft.com/en-us/updates/generally-available-zone-redundant-storage-for-azure-disks-is-now-available-in-more-regions-5/ Azure Ultra Disk Storageが英国西部とポーランド中部で利用可能に https://azure.microsoft.com/en-…
NoSQLデータベースとは、SQLを使わない非関係型のデータベースの総称です。NoSQLデータベースは、大量のデータを高速に処理することができるという特徴があります。また、スキーマレスであるため、柔軟にデータ構造を変更することができます。NoSQLデータベースには、主に以下の4種類があります。 キーバリューデータベース ドキュメントデータベース カラムデータベース グラフデータベース それぞれのデータベースの特色と代表的な製品を紹介します。 キーバリューデータベース キーバリューデータベースとは、キーと値のペアでデータを管理するシンプルなデータベースです。キーは一意であり、値は任意の形式で保存…
Astronomy has little to celebrate in 2009!2009 年、天文学は祝うべきことがほとんどありません! by Wal Thornhill | January 15, 2009 7:41 pm For those who haven’t noticed, this year is “The International Year of Astronomy (IYA2009)[1].” 気づいていない人のために言っておきますが、今年は「国際天文学年 (IYA2009)[1]」です。 The International Year of Astronomy will…
目次 目次 本業 副業① 副業② ピアノ 猫 本業 引き続き検索のためのクローラー・Webデータからの情報抽出をメインでやる部署で働いている。 データ周りの技術スタックとしてはApache HBase, Apache Sparkあたりを利用したクローラーや情報抽出システム開発をやりつつ、更新可能なテーブルフォーマットとしてのApache Icebergの検証・導入を新規に行っていた。 (Storage-Partitioned Joinという機能を活用したので、その記事をあとで書くかも) 来年は論文を読んでて興味を持ったMarkupLM/SimpDOMのようなHTMLを扱える情報抽出モデルを日本…
Contributions to Apache Hive 2023年に取り組んだ分散処理OSSに対する貢献のまとめです。今年はApache Hiveのコミュニティが活性化したのでHiveやTezに対する貢献が多めです。 この記事は『Distributed computing (Apache Spark, Hadoop, Kafka, ...)のカレンダー | Advent Calendar 2023 - Qiita』24日目として執筆しました。若干遅れて申し訳ございません。
凍った木が溶け始める様子をそれっぽく描いてもらった この記事はデータベース・システム系 Advent Calendar 2023の2日目の記事である。前日は僕、明日も僕。 Log Structured Merge Tree(以下LSM-Tree)という物をご存知だろうか。データ構造としては順序付きの辞書であり結構昔に発明されており各操作の計算オーダーは赤黒木等と同じである。システム系学会を追っていると無限に亜種が提案されているので特徴を一言で言い表すのは難しいのだが、その一種であるLevelDBはChromiumの中でも使われている。 https://chromium.googlesource…
はじめに こんにちは、クラウド事業部の清水(雄)です。 先日、AWS DAS(AWS Certified Data Analytics - Specialty)に合格してきました。 今回は体験記を書かせて頂きました。 はじめに 前提 教材 合計学習時間 スコア 学習方法 所感 理解しにくかった用語のメモ おわりに お知らせ 前提 ・以下資格取得済み AWS Certified Solutions Architect - Professional AWS Certified Solutions Architect - Associate AWS Certified Developer - Ass…
観測可能性ツールとプラットフォームの市場規模は、2023年の24億米ドルから2028年には41億米ドルに成長し、予測期間中の年間平均成長率(CAGR)は11.7%になると予測されます。リセッション(景気後退の前後)が市場に与える影響については、本レポート全体を通して取り上げています。現代の私たちの生活は、最新のデジタル技術で溢れかえっています。セキュリティと最適化されたネットワークパフォーマンスを組み合わせたSASEアーキテクチャ(セキュアアクセスサービスエッジ)などのリモートアクセス戦略の成長は、場所に関係なく優れたユーザーエクスペリエンスを維持する独立した統一された観測性のニーズを促進し…
当記事は みずほリサーチ&テクノロジーズ × G-gen エンジニアコラボレーション企画 で執筆されたものです。 G-gen の片岩です。当記事では Google Cloud のデータベースサービスである Bigtable を徹底解説します。ビジネスにおいてデータ活用が重要なことは改めて記載するまでもありません。大量のデータを高速に処理でき、スケーラビリティのある Bigtable は、より効率的かつ正確なビジネス上の意思決定に貢献できそうです。また、高度で詳細な監査要件の求められる金融機関のシステムにおいてはログの蓄積・解析などでの利用も考えられそうです。 基本事項 Cloud Bigtab…
AWS Certified Solutions Architect–Associate認定に先日合格しました。 その出題問題の中でもストリームデータの取り扱いについてよくこんがらがったので、まとめたいと思います。 I. はじめに ・ストリームデータ処理とは何か ストリームデータとは、時間の経過に伴って連続的に発生するデータのことを指します。 ストリームデータ例 イベントデータ、トランザクションデータ、ログデータ、センサーデータ、テキストデータ、画像データ 例にも挙げているビッグデータなどのデータが増加したことやサービスの高度化で次々に作成されるデータを処理し解析することが求められたことがストリ…
こんにちは!エンタープライズクラウド部技術2課の日高です。 Amazon EC2(今後はEC2と表記)をマネジメントコンソールから作成する際に、「この設定なんだっけ?」と高度な詳細の項目について忘れてしまうことがよくあるので備忘録がてらまとめていきたいと思います。 今回、「購入オプション」「ドメイン結合ディレクトリ」「IAM instance profile」「ユーザーデータ」は載せるとボリュームが多くなりすぎて読み手の方が大変だと思うので、別のブログにて書いていきたいと思います。 高度な詳細(Advanced details)の項目 インスタンスの自動復旧(Instance auto-rec…
NoSQLに属するカラムストア型DBについて、もう少し調べてみた。 カラムストア型DBの特徴 KVSでは1つのKeyに対して1つのValueだったのに対して、複数のValue(カラム)を持てる構成 1つのレコード(Key)毎に異なるカラム構成であることが許容される レコードとカラムと聞くと、RDBMSと同じ感じがしてしまうが、1レコード毎に自由にカラムを構成できるところが大きく異なるということがわかった。